NLP - 한국어 영화 리뷰 감정분석
네이버 영화 리뷰 데이터를 이용한 긍정/부정 예측하기
네이버 영화 리뷰 데이터를 이용한 긍정/부정 예측하기
이번에는 word2vec을 활용하여 모델을 구현 해보자.
이제 전처리된 데이터를 가지고 TF-IDF를 활용한 모델을 구현할 것이다.
케글 데이터 불러오기 -> EDA -> 데이터정제 -> 모델링의미한다.
한글 자연어 처리에 많이 사용하는 파이썬 라이브버리 KoNLPy에 대해 알아보겠다.
기계가 텍스트를 이해할 수 있도록 텍스트를 정제하고 신호와 소음을 구분하여 아웃라이어 데이터로 인한 오버피팅을 방지하기 위해서는 다음과 같은 처리를 해주어야 한다.
자연어 처리(natural language processing)는 인간의 언어 현상을 기계적으로 분석해서 컴퓨터가 이해할 수 있는 형태로 만드는 자연 언어 이해 혹은 그러한 형태를 다시 인간이 이해할 수 있는 언어로 표현하는 제반 기술을 의미한다.
쉽게 말하면 평균(Mean)에 대한 오차이다. 즉, 실제 데이터 값이 평균을 기준으로 할때 얼마나 들쭉 날쭉하냐를 나타내는 것이다. 평균이 m이고 표준편차가 3이라고 할때, 실제 값은 m+`3 값이라는 것이다
인공지능, 머신러닝, 딥러닝에 대해 자세히는 모르지만 대부분 한번쯤을 들어보았을 것이다. 분명 3가지는 차이가 있으며 어떤 차이가 있는지부터 알아보자.
머신러닝은 어떤 데이터로 어떤 학습 알고리즘을 사용할 것인가를 결정하는 작업이라고 할수 있다. 여기서 문제가 될수 있는 나쁜 알고리즘과 나쁜 데이터에 대해 알아보도록 하자.
최근접 이웃법은 새로운 데이터를 입력받았을 때 가장 가까이 있는 것이 무엇이냐를 중심으로 새로운 데이터의 종류를 정해주는 알고리즘이다.