발화 의도 예측 및 슬롯 채우기 복합 처리를 위한 한국어 데이터셋 개발

한승규; 임희석

발화 의도 예측 및 슬롯 채우기 복합 처리를 위한 한국어 데이터셋 개발

원문정보

Development of Korean dataset for joint intent classification and slot filling

한승규, 임희석

한국융합학회 한국융합학회논문지 제12권 제1호 2021.01 pp.57-63 KCI 등재

피인용수 : 0건 (자료제공 : 네이버학술정보)

초록

영어

Spoken language understanding, which aims to understand utterance as naturally as human would, are mostly focused on English language. In this paper, we construct a Korean language dataset for spoken language understanding, which is based on a conversational corpus between reservation system and its user. The domain of conversation is limited to restaurant reservation. There are 7 types of slot tags and 5 types of intent tags in 6857 sentences. When a model proposed in English-based research is trained with our dataset, intent classification accuracy decreased a little, while slot filling F1 score decreased significantly.

한국어

사람의 발화 내용을 이해하도록 하는 언어 인식 시스템은 주로 영어로 연구되어 왔다. 본 논문에서는 시스템과 사용자의 대화 내용을 수집한 말뭉치를 바탕으로 언어 인식 시스템을 훈련시키고 평가할 때 사용할 수 있는 한국어 데이터셋을 개발하고, 관련 통계를 제시한다. 본 데이터셋은 식당 예약이라는 고정된 주제 안에서 사용자의 발화 의도와 슬롯 채우기를 해야 하는 데이터셋이다. 본 데이터셋은 6857개의 한국어 문장으로 이루어져 있으며, 표기된 단어 슬롯 의 종류는 총 7개이다. 본 데이터셋에서 표기된 발화의 종류는 총 5개이며, 문장의 발화 내용에 따라 최대 2개까지 동시에 기입되어 있다. 영어권에서 연구된 모델을 본 데이터셋에 적용시켜 본 결과, 발화 의도 추측 정확도는 조금 하락 하였고, 슬롯 채우기 F1 점수는 크게 차이나는 모습을 보였다.

요약
Abstract
1. 서론
1.1 발화 이해 연구
1.2 한국어 관련 연구
2. 관련 연구
2.1 발화 이해 관련
2.2 한국어 자연어처리 관련
3. 데이터셋 개발
3.1 기존 말뭉치 분석
3.2 슬롯 태그 수정
3.3 의도 태그 부착
4. 실험
4.1 사용 모델
4.2 평가 방법
4.3 실험 결과 및 분석
5. 결론
REFERENCES

키워드

저자정보

한승규 Seunggyu Han. 고려대학교 컴퓨터학과 석사과정
임희석 Heuiseok Lim. 고려대학교 컴퓨터학과 교수

참고문헌

자료제공 : 네이버학술정보

함께 이용한 논문

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

0개의 논문이 장바구니에 담겼습니다.

earticle