ML & DL/NLP

    내적과 코사인 유사도

    내적과 코사인 유사도가 어떤 연관이 있는지 정리해 보겠습니다. 내적 (Dot product / Scalar product) 여러 가지 연산 중 하나의 연산이다. 벡터와 벡터의 연산 결괏값은 스칼라 공식 : a • b = |a| * |b| * cos θ 코사인 유사도 (Cosine Similarity) 두 벡터 사이의 각도를 계산해 두 벡터의 유사도를 측정하는 척도 1에 가까울수록 두 벡터가 유사하다고 해석 유사도는 두 벡터가 가리키는 방향의 유사도를 의미 방향이 같다면 코사인 유사도는 1, 직교한다면 0, 정반대의 방향이라면 -1로 표현한다. 코사인 유사도에서 내적 내적의 공식을 다시 살펴보면, a • b = |a| * |b| * cos θ이다. 두 벡터의 크기와 두 벡터가 이루는 각의 코사인 값을 곱한..

    Word Embedding Association Test (WEAT) - 편향성 측정

    모델의 성능을 높이기 위해서 데이터를 살펴봐야 한다. 실제 세상의 데이터는 특정한 쪽으로 편향된 경우가 많고 이는 모델의 학습을 방해할 수 있기 때문이다. WEAT test는 데이터가 얼마나 편향적인지를 확인할 수 있는 계산식이다. 자연어를 학습할 때 자연어를 임베딩으로 변환해 학습시킨다. 변환된 워드 임베딩(word embedding) 간의 거리를 이용해 해당 데이터셋의 편향 정도를 측정할 수 있다. - target 단어와 attribute 단어들로 분류한다. (e.g. target : attribute = flower : happy = insect : disgusting) - 위 예시처럼 상반되는 두 target 데이터셋(해당 단어를 대표하는 단어들)을 잇고, 상반되는 두 attribute 데이터셋(..

    텍스트 벡터화 기법의 종류

    본 게시물은 2021.04.11. 에 작성되었으며, 블로그를 이전하며 현재 날짜로 등록되었습니다. 본 게시물은 모두의연구소 AIFFEL 컨텐츠를 참고하여 정리한 내용입니다. 우리는 컴퓨터가 이해하기 쉽도록 텍스트를 BOW(Bag of Words)등의 방법으로 표현해 수치화한다. 그렇다면 수치화한 것은 어떻게 활용할 수 있을까? 이전에 자연어처리와 토크나이저에 대해 공부하면서, 희소표현이 아닌 분산표현을 이용하면 좋은 점이 단어들 간의 의미적 유사도를 계산할 수 있다는 점이라고 배웠다. 단어 혹은 문장 간 의미적 유사도 계산 방법 중 하나인 코사인 유사도에 대해서 공부해보겠다! 우리는 단어를 수치화하면서 벡터화한다. 벡터 : 벡터란 방향과 크기를 나타내는 원소이다. 코사인 유사도 코사인 유사도 : 두 벡터..

    자연어 처리와 토크나이저

    본 게시물은 2021.04.08. 에 작성되었으며, 블로그를 이전하며 현재 날짜로 등록되었습니다. 본 게시물은 모두의연구소 AIFFEL 컨텐츠를 참고하여 정리한 내용입니다. 자연어처리가 필요한 이유 "Alice drove down the street in her car." 해당 문장은 중의적인 의미로 해석할 수 있습니다. 차를 운전해서 거리를 달리고 있다. 차 안의 거리를 달리고 있다. 물론 이 글을 읽는 우리(사람)는 거리가 차 안에 있지 않다는 사실을 알고 있기 때문에, 1번의 의미로 해석을 바로 할 수 있다. 하지만, 이 글을 컴퓨터가 해석한다면 어떨까? 우리가 아는 사전 정보(거리는 차 안에 있지 않다)를 전달해 단어의 의미를 파악하게 해야 한다. 이처럼 컴퓨터가 사람처럼 자연어를 처리할 수 있도..