earticle

논문검색

딥러닝 기법을 활용한 산업/직업 자동코딩 시스템

원문정보

An Automated Industry and Occupation Coding System using Deep Learning

임정우, 문현석, 이찬희, 우찬균, 임희석

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

An Automated Industry and Occupation Coding System assigns statistical classification code to the enormous amount of natural language data collected from people who write about their industry and occupation. Unlike previous studies that applied information retrieval, we propose a system that does not need an index database and gives proper code regardless of the level of classification. Also, we show our model, which utilized KoBERT that achieves high performance in natural language downstream tasks with deep learning, outperforms baseline. Our method achieves 95.65%, 91.51%, and 97.66% in Occupation/Industry Code Classification of Population and Housing Census, and Industry Code Classification of Census on Basic Characteristics of Establishments. Moreover, we also demonstrate future improvements through error analysis in the respect of data and modeling.

한국어

본 산업/직업 자동코딩 시스템은 조사 대상자들이 응답한 방대한 양의 산업/직업을 설명하는 자연어 데이터에 통계 분류 코드를 자동으로 부여하는 시스템이다. 본 연구는 기존의 정보검색 기반의 산업/직업 자동코딩시스템과 다르 게 딥러닝을 이용하여 색인 DB가 필요하지 않고 분류 수준에 상관없이 코드를 부여할 수 있는 시스템을 제안한다. 또 한, 자연어 처리에 특화된 딥러닝 기법인 KoBERT를 적용한 제안 모델은 인구주택총조사 산업/직업 코드 분류, 그리고 사업체기초조사 산업 코드 분류에서 각각 95.65%, 91.45%, 97.66%의 Top 10 정확도를 보인다. 제안한 모델 실험 후 향후 개선 가능성을 데이터/모델링 관점으로 분석한다.

목차

요약
Abstract
1. 서론
1.1 서론
2. 관련 연구
2.1 산업/직업 자동코딩을 위한 국외 연구
2.2 산업/직업 자동코딩을 위한 국내 연구
3. 딥러닝 기반 산업/직업 분류 모델
3.1 Bi-LSTM
3.2 KoBERT
4. 실험
4.1 데이터
4.2 정량적 평가 지표
4.3 실험
4.4 오류 분석
5. 결론
REFERENCES

저자정보

  • 임정우 Jungwoo Lim. 고려대학교 컴퓨터학과 석박사통합과정
  • 문현석 Hyeonseok Moon. 고려대학교 컴퓨터학과 석박사통합과정
  • 이찬희 Chanhee Lee. 고려대학교 컴퓨터학과 석박사통합과정
  • 우찬균 Chankyun Woo. 통계청 조사시스템관리과 전산주무관
  • 임희석 Heuiseok Lim. 고려대학교 컴퓨터학과 교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 4,000원

      0개의 논문이 장바구니에 담겼습니다.