원문정보
Automated Construction of a Korean Irony Parallel Corpus Using GPT
초록
영어
This research presents a Korean irony parallel corpus which was automatically constructed utilizing a GPT model. The corpus is composed of a set of paired sentences including indicative and ironic ones. All the indicative sentences are extracted from a general purposed corpus and convey negative sentiment. They are used to generate a corresponding ironic sentence, using a dictionary of sentiment reversal which contains paired sentiment antonyms. When a generated ironic sentence does not convey clear ironic meaning, relevant context is provided in a form of a supporting sentence. The sentences are retrieved through searching a corpus and generated utilizing a GPT model based on semantic incongruity. Human evaluation suggests grammaticality of the generated sentences are acceptable while sarcasticness need to be improved. Automatic evaluation shows the corpus includes various types of sentences created various expressions.
한국어
본 연구는 GPT 모델을 활용한 한국어 반어 병렬 코퍼스의 자동 구축을 목표로 한다. 반어 병렬 코퍼스는 직설 문장 과 같은 의미를 담고 있는 반어 문장 쌍으로 구성되는데 이 직설 문장은 일반 코퍼스에서 추출된 부정적인 서술어를 담고 있는 문장이다. 직설 문장에서 사용된 부정적인 서술어를 감성 반의어를 이용하여 대응되는 긍정 서술어로 변 환하여 반어 문장을 생성한다. 생성된 반어 문장이 명확한 반어적 의미를 전달하지 못할 경우, 관련된 맥락을 제공 하여 반어 의미를 명확히 전달하고자 한다. GPT 모델을 이용하여 직설 문장이 도출할 수 있는 부정적 개념을 추출 하고 이를 기반으로 코퍼스 검색과 GPT를 이용한 문장 생성을 통해 맥락 지원 문장을 생성한다. 구축된 반어 병렬 코퍼스의 수동 평가 결과 생성된 문장들의 문법적 정확성은 수용할 만한 수준인 반면, 반어적 표현력은 다소 개선이 필요하였다. 본 연구는 한국어 반어 병렬 코퍼스 자동 구축의 최초 시도이며, 다양한 표현으로 만들어진 여러 유형 의 문장을 포함할 수 있었다.
목차
Abstract
1. 서론
2. 관련연구
2.1 한국어 반어 코퍼스 구축
2.2 영어 반어 코퍼스 구축
3. 한국어 반어 병렬코퍼스 구축 과정
4. 반어 병렬코퍼스 구축 결과
5. 반어 병렬코퍼스 평가
6. 결론
참고문헌
부록
