원문정보
A Study on the Importance of Data Balance for Digital Transformation : Based on the result of data balance analysis for AI learning
초록
영어
This study shows the need of data balance by analysis the balance of data collected by the government. As a result of analysis of vehicle recognition data, only 231(3.08%) were significant data, even though 7,500 pieces of diversity were required, and the rest were all listed in the overlapping data. This means that biased artificial intelligence is highly likely to be created. The introduction of artificial intelligence technology is too important and fundamental a change, it cannot be achieved only by the technical efforts of individual companies in quality. Only when the government or public institutions provide necessary standards and provide minimum infrastructure can the competitiveness of companies as well as social stability related to new technologies be secured.
한국어
본 연구는 정부에서 수집한 데이터의 밸런스 수준을 분석하여 데이터 밸런스의 필요성을 보여주고, 데이터 밸런스를 위하여 어떤 노력이 필요한지에 대하여 논하는 것이다. 도로 위 차량 인식 데이터를 밸런스 분석한 결과, 7,500장의 다양성이 필요했음에도 유의미한 데이터는 231장(3.08%)일 뿐 나머지는 모두 중복 데이터의 나열이었다. 즉 7,500장이면 충분한 데이터를 굳이 5만 장이나 모았음에도, 231장의 역할밖에 하지 못했다는 의미이다. 이는 편향된 인공지능이 만들어질 가능성이 크다는 것이다. 물론 하나의 사례일 수 있지만, 문제는 이것이 하나의 독특한 사례인지 정부 또는 공공기관이 제공하는 모든 데이터의 공통된 문제인지를 확인하는 그 어떤 노력도 없었다는점이다. 즉 디지털 전환 시대의 가장 기본이 되어야 할 데이터가 쓸만한 데이터인지 모른채 정책을 추진하고 있다는 것이다. 주요 산업에 대한 인공지능 기술 도입은 사회적으로 너무나 중요하면서 근본적인 변화이기 때문에, 절대로 개별 기업의 기술적 노력만으로 이루어질 수가 없다. 정부 또는 공공기관이 필요한 기준을 마련하고 최소한의 인프라를 제공해야만 신기술과 관련된 사회적 안정성은 물론 개별 기업들의 경쟁력도 확보될 수 있다. 무엇보다 데이터의 다양성을평가할 수 있는 객관적인 기준과 그것을 측정할 수 있는 기술을 개발하여 보급해야 한다.
목차
Ⅰ. 문제 제기
Ⅱ. 선행연구 검토
1. 빅데이터와 데이터 밸런스 개념 정의
2. 빅데이터에 대한 연구경향
Ⅲ. 실증분석
1. 데이터 밸런스 분석을 위한 대상 선정
2. 데이터 밸런스 분석 결과
3. 인공지능의 탐지 사례 분석 결과
Ⅳ. 시사점 논의
참고문헌
