원문정보
Improving Sentimental Analysis based on Sentiment Dictionary using Random Forest Classifier
초록
영어
Sentiment analysis is the process of analyzing digital text to determine whether the emotional tone of the message is positive, negative, or neutral. Today, companies can scan large amounts of text data such as emails, customer support chat transcripts, and social media comments and reviews to automatically determine the writer's attitude on a topic. Companies use insights from sentiment analysis to improve customer service and enhance brand reputation. However, there are cases where positive and negative judgments are misclassified due to the complexity of language and the use of ironic expressions. This paper proposed a method to solve this problem based on a random forest classifier, learned from 5 months of Naver news articles, performed cross-validation, and learned and verified with an excellent data set of AUC values based on the ROC curve.
한국어
감정 분석은 디지털 텍스트를 분석하여 메시지의 감정적 어조가 긍정적인지, 부정적인지 또는 중립적인지를 확인하 는 프로세스이다. 오늘날 회사는 이메일, 고객 지원 채팅 트랜스크립트, 소셜 미디어 댓글 및 리뷰와 같은 대량의 텍스트 데이터를 스캔하여 주제에 대한 글쓴이의 태도를 자동으로 확인할 수 있다. 기업은 감정 분석의 인사이트를 활용하여 고객 서비스를 개선하고 브랜드 평판을 높인다. 그러나 언어의 복잡성과 반어적 표현 등의 사용으로 긍정, 부정 판단이 잘못 분류되는 사례가 있다. 본 논문은 랜덤 포레스트 분류기를 기반으로 이러한 문제 해결방법을 제안 하여 네이버 뉴스기사 5개월 분량으로 학습하고 교차검증을 실시하였으며, ROC 곡선에 기반한 AUC 값 중 우수한 데이터 세트로 학습하고 검증하였다.
목차
Abstract
1. 서론
2. 관련연구
2.1 기계학습
2.2 랜덤 포레스트 분류기
3. 랜덤 포래스트 분류기를 이용한 감성분석
3.1 감성분석
3.2 감성분석의 문제점
3.3 데이터 처리
3.4 랜덤 포레스트와 데이터 세트 구성
3.5 구현
4. 감성어 사전 기반 감성분석과 비교평가
5. 결론
Acknowledgements
참고문헌