전체 글

전체 글

    [논문리뷰] Sequence to Sequence Learning with Neural Networks

    본 게시물은 Sequence to Sequence Learning with Neural Networks를 요약 및 번역 정리한 내용입니다. 0. Abstract 어려운 학습 과제에도 좋은 성과를 내는 Deep Neural Networks(DNNs)는 대용량의 지도 학습 데이터셋에는 잘 적용되지만 시퀀스를 잇는(mapping) 학습에는 사용될 수 없다. 시퀀스 학습의 일반적인 end-to-end 접근법을 제안하고자 한다. 해당 접근법은 시퀀스 구조에 대해 최소한의 추정을 하는 방법이다. 입력 시퀀스를 고정된 차원의 벡터로 매핑하기 위한 다층의 Long Short-Term Memory (LSTM)을 사용한다. 벡터로부터 타겟 시퀀스를 디코딩하는 또 다른 다층의 LSTM을 사용한다. 논문에서 사용할 태스크는 ..

    Word Embedding Association Test (WEAT) - 편향성 측정

    모델의 성능을 높이기 위해서 데이터를 살펴봐야 한다. 실제 세상의 데이터는 특정한 쪽으로 편향된 경우가 많고 이는 모델의 학습을 방해할 수 있기 때문이다. WEAT test는 데이터가 얼마나 편향적인지를 확인할 수 있는 계산식이다. 자연어를 학습할 때 자연어를 임베딩으로 변환해 학습시킨다. 변환된 워드 임베딩(word embedding) 간의 거리를 이용해 해당 데이터셋의 편향 정도를 측정할 수 있다. - target 단어와 attribute 단어들로 분류한다. (e.g. target : attribute = flower : happy = insect : disgusting) - 위 예시처럼 상반되는 두 target 데이터셋(해당 단어를 대표하는 단어들)을 잇고, 상반되는 두 attribute 데이터셋(..

    interpolate method의 종류 및 차이점

    시계열 데이터 전처리 과정에서 결측치를 보간하기 위해 interpolate 함수를 사용한다. method를 여러 종류 중 하나로 지정해서 보간하는 기준(방법)을 설정할 수 있다. 주로 많이 쓰이는 linear과 time에 대해 알아보겠다. interpolate(method='linear') 선형적으로 보간 interpolate함수의 default 설정이다. interpolate(method='time') 시간차를 고려해서 선형이 되도록 보간 결과값을 보면 직관적으로 이해할 수 있다. pandas 공식문서에는 다음과 같이 나와있다.

    confusion matrix와 평가지표

    정밀도와 재현율을 더 이해하기 쉽게 말로 풀어 설명해보았습니다. 정밀도(precision) 정밀도는 예측한 모든 y_pred 중에 정확하게 예측한 값이 어느 정도 있는가를 측정한 지표이다. 참과 거짓이 있다면 참이라고 예측한 값들 중 진짜 참은 얼마나 있는가?!라고 말할 수 있다. 정밀도를 통해 우리는 예측하고자 하는 label을 얼마나 정확하게 예측하는지를 알 수 있다. 재현율(recall) 재현율은 참과 거짓이 있다면 모든 참 중 참이라고 예측한 값이 얼마나 있는가를 측정한 지표이다. 이를 통해 우리가 예측한 결과가 얼마나 정확한지를 알 수 있다. trouble shooting confusion matrix를 확인할 때 값이 0이 나와 그 이유를 찾아보았다. true positive+false pos..

    random_state

    x_train, x_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=16) 모델 학습을 위해 데이터셋을 구성할 때 자주 보이는 random_state는 무엇일까? 데이터셋을 train, test로 나눌 때 자동으로 무작위로 섞게 된다. (shuffle=False 파라미터를 설정하지 않는다면) 여기에서 무작위란 어떤 특정한 숫자로부터 시작한 난수처럼 보이는 수열을 말한다. 수열이 시작되는 특정한 숫자를 시드(seed)라고 한다. 이 시드를 수동으로 설정한 후, 동일한 시드를 사용하면 동일하게 나눠진 데이터를 얻을 수 있다. 따라서 데이터를 섞되, 일정하게 섞고 싶을 때 사용하는 것이 seed이다. 이..

    REST API

    REST API Representational State Transfer : 자원의 이름으로 구분, 해당 자원의 상태를 주고받는 모든 것 what is REST API ? API Application Programming Interface 데이터와 기능의 집합을 제공 컴퓨터 프로그램 간의 상호작용을 촉진하며, 서로 정보를 교환 가능하도록 하는 것 ex) python의 출력을 위한 print, 자바 스크립트의 document.wriite REST API REST 기반으로 서비스 API를 구현한 것 기계와 기계가 통신하는 규칙 web의 통신규약인 http를 이용한다. HTTP (HyperText Transfer Protocol) - 월드 와이드 웹 (W3) 상에서 정보를 주고받을 수 있는 프로토콜 - 프로토..

    [생활코딩]WEB2 - Python

    생활코딩의 WEB2 - Python 강의를 들은 후 정리한 내용입니다. ? 뒤쪽 : query string 또는 url parameter (사용자가 요청한 정보) CGI란? CGI Application : index.html과 같은 파일 사용자가 요청(ex. query string) → 웹 서버 ↔ CGI 웹서버는 HTTPD, APACH 등 여러 가지, CGI Application 도 여러 언어로 구성될 수 있다. : 그렇기 때문에 둘 사이의 표준화된 약속 필요 ⇒ CGI CGI 대신 FAST CGI, Python에서는 WSGI를 사용 실습 제어문 소개 프로그램이란? : 순서대로 실행되어야 하는 일 들이 순서대로 실행되는 것 ? id= : querystring, 입력을 받았을 때와 안 받았을 때의 조건을..

    [생활코딩] WEB1 - HTML&Internet

    생활코딩의 WEB1 HTML&Internet 강의를 들은 후 정리한 내용입니다. internet (web, email...) info.cern.ch : 최초의 website!! 서버와 클라이언트 두 대의 컴퓨터가 연결되는 것 web browser, web server(index.html이라는 파일이 있다.) browser 가 index.html 접근을 요청 [client] server가 index.html 파일을 응답 (response) [server] 웹 호스팅 웹 서버를 운영하기 위한 컴퓨터 : web hosting 무료 호스팅 서비스 검색어 : free static web hosting 127.0.0.1 : Internet Protocol Address, IP주소 → 웹 브라우저가 설치되어있는 컴퓨..