ML & DL/논문

[논문리뷰] Research on Dynamic Political Sentiment Polarity Analysis of Specific Group Twitter Based on Deep Learning Method

본 게시물은 2021.05.19. 에 작성되었으며, 블로그를 이전하며 현재 날짜로 등록되었습니다.
본 게시물은 Research on Dynamic Political Sentiment Polarity Analysis of Specific Group Twitter Based on Deep Learning Method를 공부하며, 요약 및 번역 정리한 내용입니다.

0. ABSTRACT

  • 미국 정치인의 트윗에 대한 dynamic 정치 감성 극성 분석(다중 분류) 방법 제안
  • 데이터 : 일정 기간, 특정 그룹에서 보낸 트위터 텍스트
  • 비교 평가 : 20명의 미국 주지사, 상원 의원의 감성 극성 판단
  • 정확도 80.66%, 직접 평가(사람) 성공률 75%

1. 관련 연구

감성 극성 분석은 전통적 머신러닝 알고리즘 및 신경망 기반 방법 기반의 자동 텍스트 분류와 동일한 방법이다.

1) 전통적 머신러닝 알고리즘

  • SVM, NB(naive bayes), n-gram 언어 모델 등의 기법
  • 위의 알고리즘을 사용해 가중치를 계산
    • 단어 빈도를 기반으로 한 TF-IDF

감성 극성 분석은 복잡한 감정 표현, 텍스트의 모호성으로 인해 위와 같은 일반적인 텍스트 분류 수준에 도달하기 어려움
특성 추출(feature)의 품질이 감성 분석 성능에 직접적인 영향을 미침
해당 품질 향상을 위해 본 연구에서는 다양한 심층 신경망 기법을 사용

2) 딥러닝 기반 감성 극성 분석

  • HAN : hierarchical attention network model
  • TextCNN, DCNN, MVCNN : recurrent neural network
  • Network Tree-LSTM
  • DC-Bi-LSTM : densely connected two-way LSTM model

위 모델 중 DC-Bi-LSTM 이 분류 범주가 적은 감성 극성 테스트 데이터셋에서 가장 우수한 성능을 보였다.

3) 유사 연구

트위터 기반의 정치 감성 극성 분석 문제는 데이터셋이 기존 텍스트 분류보다 훨씬 적다는 문제가 있다.
정치 분야가 아닌 타 분야에서 적은 데이터 셋에 대해 LSTM, convolution을 사용해 81%의 효과를 얻은 비슷한 연구가 있다.
해당 연구에서는 분류에 대한 convolution의 성능이 우수했으나, 삼항 분류 문제에서는 이진 분류보다 낮은 성능을 보인 것을 확인했다.

  • BERT

대규모 사전 학습 언어모델인 BERT와 관련된 두 가지 주요 아이디어

  1. 기존 사전 학습된 모델에 대해 fine-tuning을 이용하는 방법
    • 적은 데이터 셋일 경우 적합
  2. 특정 대상 도메인의 사전 학습 모델을 직접 학습시키는 것
    • 대규모 도메인 코퍼스를 이용해야 함
    • 대량의 하드웨어 리소스, 데이터 필요
    • 기본 모델인 BERT-large에 비해 10~30% 성능 개선

4) 동적 감성 분석 연구

국내외의 최신 동적 감성 분석 연구

  • 동적 감성 분석이란?
    • 시간에 따라 변화하는 감성을 분석하는 것
  • SSTM : 짧은 텍스트 감성 주제 모델

특정 브랜드의 휴대폰 리뷰 데이터를 동적으로 수집, 감성분석하는 모델
해당 모델을 이용해 Amazon 제품 리뷰 텍스트의 극성을 분류하고, 분류된 그룹 행동에 해산 분석을 통해 상품 채점 메커니즘을 개선함

위의 문제보다 정치 감성 극성 분석 문제는 보다 극적인 경향을 보임

특히 총선 등 특정 사건 전후에 변동이 심하며, 극성이 급격하게 변화할 수 있다.

때문에 정적인 카테고리 분석방법이 아닌 동적인 분석 방법이 요구됨

2. 모델 (방법론)

  • 모델 :3가지 전통적 신경망 모델과 BERT기반 사전 훈련 모델을 사용
  • 문제 : 2016년 트럼프 취임 이후, 내부 분열을 고려해 특정 미국 정치인 그룹의 특정 기간에 초점을 맞춤
  • 분류
    1. 친 트럼프, 기존 극우 세력
    2. moderate opposite (온건 반대?)
    3. 직접적인 경쟁, 투표 유인 수단으로 중국을 공격
    4. 객관적인 온건파, 중국인에 대한 동정심

image

1) 데이터 구성

  • 위의 4가지 분류에 해당하는 21명의 미국 정치인을 선택
  • 2019년 5월 25일 ~ 2020년 5월 25일 (1 년)
  • 21명의 정치인의 트위터 id를 기반으로 정치인 트위터 크롤링
  • 총 53,292 개의 트위터 텍스트 데이터 사용
  • 학습, 검증, 테스트 비율 = 5:1:1
  • 수집한 트위터 텍스트에 대한 가정(전제조건)
    • 해당 기간 동안의 감성 극성에 대한 변화가 없다.
    • 모든 데이터는 명시적이거나 암시적이다.
    • 다중 감성 극성은 존재하지 않음
  • 전처리
    • 이모티콘 : 텍스트로 변환
    • 트위터 아이디는 이름으로 변환
    • 정치와 관련 없는 트위터는 수동으로 필터링

Screenshot from 2021-05-19 18-39-21

데이터 분포

딥러닝 기반 동적 감성 분석 기법

$F : {g, s, h, t}$

$g$ : 정서적 대상
$s$ : 정서적 지향
$h$ : 트윗 게시자
$t$ : 시간 (트윗 발행 시간)

4- tuple 관계를 이용해 추상적으로 표현한다.

시간에 따라 변하는 동적 특성에는 두 가지 주요 표현이 있다.

  1. 특정 이벤트를 기반으로 한 분석 방법
  • 해당 이벤트가 발생한 시점이 $t_1$이라고 할 때, 두 기간을 선택해 분석 후 분류 결과를 얻는다.

$[T - t_1, T], [T, T + t_1]$

image

  1. time window 기반의 분석 방법
  • 특정 시간 창을 고정 후 각 고정된 window내의 감성 극성을 분석
  • 시간 축의 관점에서 정치 감성 극성 변화 분석

image

$T_0$ : 시작 시간

  • 서로 다른 시간대의 데이터를 분석해 결과를 얻는다.

image

3. 실험 결과

CNN, BI-LSTM, C-LSTM(CNN+BI-LSTM), BERT를 기반으로 실험 후 모델을 선택한다.

image

BERT가 가장 성능이 좋았으나, 학습 시간이 가장 오래 걸리며 모델의 크기가 크다.
학습 시간은 데이터 셋을 업데이트하는 동시에 fine-tuning이 이루어졌기 때문이다.

  • 두 번째 실험으로 감성 극성을 알 수 없는 정치인 5명의 트위터를 분석한다.
    해당 실험을 통해 수동 라벨링이 없이 정치인의 정치 감성 극성과 트위터에 대한 분류를 빠르게 판단할 수 있다.

image

  • 해당 실험은 수동 검증을 이용해 평가했으며 효과적으로 분류된 것을 확인했다.

동적 감성 극성 분석

image

  • 해당 기간(2020년 3월 20일)은 새로운 관상 동맥 폐렴 환자 1만 명 돌파를 이벤트로 설정함
  • 특정 상원의원의 우려와 극성을 확인할 수 있었음

image

  • time window를 기반으로 분석함에 따라 특정 기간에 트위터 수가 늘었으며 극성의 역동적 변화를 볼 수 있음

4. 결론

  • 해당 방법론을 이용해 이상적인 효과를 얻었으며, 이는 미국 정치에 대한 미래 동향과 중미 관계 분석에 기여할 수 있었음
  • label 3에 해당하는 데이터양이 많음 → 데이터 불균형
반응형