원문정보
Explainable AI and a Probabilistic Model of Concept Formation
초록
영어
This paper reconceptualizes the problem of explainable artificial intelligence not as a matter of post-hoc explanation or the selection of simpler models, but as a problem of concept formation and conceptual structure. Despite its high performance, deep learning remains vulnerable to subtle input perturbations, and there are documented cases in which it reaches judgments in ways that diverge from human reasoning. In domains such as medicine, law, and security?where the cost of false positives is high?the mere ability to produce correct outputs is not sufficient; what is also required is the justification of the grounds for judgment and their reconstruction in a form intelligible to human agents. Chapter 2 argues that, although deep learning makes autonomous concept formation possible by internalizing feature engineering within the learning process itself, it is precisely for this reason that the problem of explanation arises in a structural way. Following Bengio et al. (2013), the chapter examines smoothness and multiple explanatory factors as central conditions, while pointing out that the expressive power of distributed representations alone cannot explain how a given activation pattern condenses into a single stable concept. Accordingly, the paper proposes that concept formation should be understood not as the mere aggregation of generative factors, but as the formation of patterns subject to structural constraints. Chapter 3 introduces a probabilistic model of concept formationin order to treat human and artificial concepts within a common formal framework. In this model, a concept is understood as a probabilistic structure over a feature space, specified in terms of likelihoods and priors, and concept boundaries are determined by modality and spikeness. The model further evaluates dimensional compressibilityby examining how well structural features are preserved under low-dimensional projection, and on that basis identifies simpler and more fundamental concepts. Moreover, translation between models is formulated not as a matter of one-to-one correspondence between individual concepts, but as a problem of comparison between whole models, with its cost assessed in terms of expected information loss. In this way, explainable AI is redefined as the problem of constraining human and machine systems so that they share conceptual structures that can be mutually recoded with low loss.
한국어
본 논문은 설명가능한 인공지능의 문제를 사후적 설명이나 단순한 모델 선택의문제가 아니라, 개념 형성과 개념 구조의 문제로 재정식화한다. 딥러닝은 높은 성능에도불구하고 미세한 입력 교랸에 취약하며, 인간과 상이한 방식으로 판단하는 사례가 발견된다. 의료, 법률, 보안처럼 오탐의 비용이 큰 영역에서는 단지 정답을 산출하는 능력만으로는충분하지 않으며, 판단 근거의 정당화와 인간이 이해 가능한 방식으로의 재구성이 함께요구된다. 제2장에서는 딥러닝이 특징 공학을 내부 학습 과정으로 통합함으로써 자율적인 개념 형성의가능성을 갖게 되었으나, 바로 그 점 때문에 설명 문제가 구조적으로 발생한다는 점을논증한다. Bengio et al.(2013)의 논의를 따라 매끄러움과 복수의 설명 요인을 핵심 조건으로검토하되, 분산 표상의 높은 표현력만으로는 어떤 활성 패턴이 하나의 안정적 개념으로응결되는지를 설명할 수 없음을 지적한다. 이에 본고는 개념 형성을 생성 요인의 단순한나열이 아니라, 구조적 제약을 갖춘 패턴의 형성으로 이해할 것을 제안한다. 제3장에서는 인간과 인공지능의 개념을 공통 형식으로 다루기 위해 확률적 개념 형성모델을 도입한다. 이 모델에서 개념은 특징 공간 위의 확률 구조(우도와 사전확률)로이해되며, 개념 경계는 봉우리성(modality)과 첨도(spikeness)에 의해 규정된다. 또한 저차원투영에서 구조가 얼마나 보존되는지를 통해 차원적 압축 가능성을 평가하고, 이를 바탕으로보다 단순하고 기초적인 개념을 판별한다. 나아가 모델 간 번역은 개별 개념의 대응이 아니라전체 모델 간 비교의 문제로 정식화되며, 기대 정보 손실의 계산을 통해 그 비용을 평가한다. 이로써 설명가능한 인공지능은 인간과 기계가 저손실로 상호 재부호화 가능한 개념 구조를공유하도록 제약하는 문제로 재규정된다.
