earticle

논문검색

BERT를 활용한 상표 의견제출통지서 거절이유 분류모델 개발

원문정보

Using BERT Development of Classification Model for Rejection Reason of Trademark Opinion Notice

윤성식, 전재헌, 정상일, 정찬식, 이석준

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

The increase of multimedia contents and the spread of smart devices have resulted in explosive production of various kinds of data. In particular, text data has been a means of expressing human opinion for a long time, and the demand and necessity for text analysis are continuously increasing in various fields. Recently, models such as the ELMo (embeddings from language model), GPT (generating pre-training of a language model), BERT (bidirectional encoder representations from transformation) have been developed that combine deep learning, which is showing excellent performance in various fields, and the word embedding method that semantically vectorizes text. In particular, BERT developed by Google is considered to be one of the most outstanding language models in the field of natural language processing. However, BERT specialized in 'English' and plain text, such as social media data, does not implement optimal performance in specialized texts such as 'Korean' or 'R&D documents, intellectual property documents', so it can achieve optimal performance through optimization such as learning specialized corpus. Therefore, In this study, in order to develop a BERT specialized in the field of Korean trademarks, a tokenizer model specialized in trademark-related professional documents was learned using a text corpus for rejection in the trademark opinion submission notice and used for BERT. The classification accuracy of the proposed model was 96.89%, which is 4.97% higher than the classification accuracy performance of the existing multilingual BERT model. The results showed that BERT, which showed high performance in the field of natural language, could show high classification accuracy even in corpus data composed of specialized terms.

한국어

멀티미디어 콘텐츠의 증가와 스마트 기기의 보급으로 다양한 종류의 데이터가 폭발적으로 생산되고 있다. 특히, 텍스트 데이터는 오랜 시간 인류의 의사 표현수단이었으며, 텍스트 분석에 대한 수요 및 필요성은 다 양한 분야에서 지속적으로 증가하고 있다. 최근에는 다양한 분야에서 뛰어난 성능을 보이는 딥러닝과 텍스트 를 의미적으로 벡터화하는 워드 임베딩 (word embedding) 방식이 결합된 ELMo (embeddings from language model), GPT (generative pre-training of a language model), BERT (bidirectional encoder representations from transformers)와 같은 모델들이 개발되어왔다. 특히 구글이 개발한 BERT는 현재 자연 어처리 분야에서 가장 뛰어난 성능을 보이는 언어모델로 손꼽히고 있다. 하지만 ‘영어’나 소셜미디어 데이터 와 같은 ‘일반 텍스트’에 특화된 BERT는 ‘한국어’나 ‘R&D 문서, 지식재산권 문서 등’ 전문 분야에 특화된 텍 스트에서 최적의 성능이 구현되지 않기 때문에 전문 분야에 맞는 말뭉치(corpus)를 학습하는 등의 최적화 과 정을 통해 최적의 성능을 도출할 수 있다. 따라서 본 연구에서는 한글 상표 분야에 특화된 BERT를 개발하 기 위해 상표 의견제출통지서 내 거절이유 텍스트 말뭉치를 활용하여 상표 관련 전문 문서에 특화된 토크나 이저 (tokenizer) 모델을 학습하고 이를 BERT에 활용하였다. 제안 모델의 분류 정확도는 기존의 다국어 BERT 모델의 분류 정확도 성능보다 약 4.97%p 높은 96.89%를 기록하였다. 해당 결과를 통해 자연어 분야 에서 높은 성능을 보였던 BERT가 전문 용어로 구성된 말뭉치 데이터에서도 높은 분류 정확도를 보일 수 있 다는 것을 확인하였다.

목차

요약
Ⅰ. 서론
Ⅱ. 이론적 배경
1. 문서 분류 관련 연구
2. 기술문서 분류에 대한 연구
3. Bidirectional encoder representations from transformers
Ⅲ. 연구 절차
1. 데이터 수집 및 라벨링
2. 상표 의견제출통지서 거절이유 분류모형 학습 및 검증
Ⅳ. 실증분석 및 결과
1. 데이터 수집 및 라벨링
2. 상표 의견제출통지서 거절이유 분류모형 학습 및 검증
Ⅴ. 결론
참고문헌
Abstract

저자정보

  • 윤성식 Yoon, Sung-Sik. 광운대학교 경영학부 석사과정
  • 전재헌 Chun, Jae-Heon. 광운대학교 경영학부 박사과정
  • 정상일 Jeong, Sang-Il. ㈜마크클라우드 대표이사
  • 정찬식 Jung, Chan-Sik. 한국지식재산연구원 창출활용연구실 선임연구원
  • 이석준 Lee, Suk-Jun. 광운대학교 경영학부 부교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 5,200원

      0개의 논문이 장바구니에 담겼습니다.