초록 열기/닫기 버튼

최근 공공데이터를 활용하여 국내와 해외에서 다양한 웹서비스(Web Service)와 앱 서비스(Application Service) 제공 사례가 증가하고 있다. 전통시장, 공공시설, 날씨, 의료정보, 공매, 주식, 래저, 부동산, 자전거 등의 정보를 제공하고 있으며 이러한 기능에 딥러닝(Deep learning) 기술이 적용되고 있다. 딥러닝 기술의 적용을 통해 합리적 의사 결정 및 표준화된 프로세스를 도출을 통해 국민에게 맞는 행정 서비스 구축과 연구에 활용되고 있다. 이러한 딥러닝 기술 활용에 있어서 공공 데이터 확보가 무엇보다 중요하다. 기존 공공데이터는 오픈API, 표준 데이터셋, 파일데이터(CSV, JSON, XML)로 제공되고 있으며 기관별 공공데이터 등록이 늘어나고 있다. 다양한 경로로 수집된 데이터를 활용하려면 공공데이터 표준화가 필요하며 데이터를 모델에 적용하기 위해서는 데이터를 전환하는 작업 등 사람의 개입이 필요하다. 본 논문에서는 비 표준화 공공기관 데이터를 공공기관 데이터베이스 표준화 지침에 맞추어 전환하는 모델을 제안한다. 공공데이터포털에서 제공하고 있는 공공데이터 공통표준용어를 기준으로 표준화하였고 공공데이터 공통표준용어 사전에 없는 항목은 행정용어표준사전을 참고하였다. 표준화되지 않은 데이터를 seq2seq(Sequence-to-Sequence)를 모델을 활용하여 공공데이터 공통표준용어로 변환하였다. 표준화된 데이터는 공공분야 데이터로 제공되어 다양한 분야에 응용하여 활용할 수 있을 것으로 사료된다.


Recently, the number of cases of providing various web services and mobile services at home and abroad is increasing using public data. It provides information on traditional markets, public facilities, weather, medical information, public sale, stocks, lasers, real estate, and bicycles, and deep learning technology is applied to these functions. Through this, rational decision-making and standardized processes are derived and used for establishing and researching administrative services suitable for the people. Securing public data is of paramount importance in the use of deep learning technology. Existing public data is provided as open APIs, standard datasets, and file data(CSV, JSON, XML), and public data registration by institution is increasing. To utilize data collected through various paths, public data standardization is required, and to apply the data to the model, manpower is required to convert the data. In this paper, we propose a model for converting pre-established data according to the database standardization guidelines of public institutions. The public data common standard terminology provided by the public data portal was standardized, and items not in the public data common standard terminology dictionary were converted into public data common standard terminology using the seq2seq model as a combination of administrative terminology dictionaries. It is believed that the converted data can be provided as public field data and used in various application cases.