LSA

    텍스트 벡터화 기법의 종류

    본 게시물은 2021.04.11. 에 작성되었으며, 블로그를 이전하며 현재 날짜로 등록되었습니다. 본 게시물은 모두의연구소 AIFFEL 컨텐츠를 참고하여 정리한 내용입니다. 우리는 컴퓨터가 이해하기 쉽도록 텍스트를 BOW(Bag of Words)등의 방법으로 표현해 수치화한다. 그렇다면 수치화한 것은 어떻게 활용할 수 있을까? 이전에 자연어처리와 토크나이저에 대해 공부하면서, 희소표현이 아닌 분산표현을 이용하면 좋은 점이 단어들 간의 의미적 유사도를 계산할 수 있다는 점이라고 배웠다. 단어 혹은 문장 간 의미적 유사도 계산 방법 중 하나인 코사인 유사도에 대해서 공부해보겠다! 우리는 단어를 수치화하면서 벡터화한다. 벡터 : 벡터란 방향과 크기를 나타내는 원소이다. 코사인 유사도 코사인 유사도 : 두 벡터..