earticle

논문검색

Article 4

AI 위험/안전 평가를 위한 오픈소스 프레임워크

원문정보

초록

한국어

최근 대규모 언어 모델(LLM, Large Language Model) 기반의 고성능 AI 모델 활용이 확산됨에 따라 편향(Bias), 유 해 콘텐츠(Toxicity), 허위 정보(Misinformation), 개인정보 보호(Privacy), 악의적 활용(Malicious Use) 등의 위험 요소 가 주요한 사회적 문제로 대두되고 있다. 이러한 위험 및 안전 성을 평가하기 위해 다양한 AI 안전성 평가 프레임워크가 개 발되고 있으며, 대표적인 오픈소스 프레임워크로 Inspect, Moonshot, Dioptra, Garak 등이 있다. 본 논문에서는 특히 LLM 모델의 위험 및 안전성 벤치 마크에 특화된 Inspect와 Moonshot을 비교 분석하고, Moonshot을 활용한 LLM 안전성 평가 방법과 실제 수행 예 제를 제공하였다. 특히, MLCommons의 Ailuminate 등의 공개 데이터셋을 활용하여 프라이버시 침해, 악의적 활용 등 의 위험 평가를 수행한 예제를 제시하고, JSON 포맷으로 제 공되는 평가 결과의 분석 방안을 논의하였다. 마지막으로, AI 안전성 평가의 표준화 가능성을 검토하고, AI 위험 요소의 분류, 평가 데이터셋, AI 안전 평가의 자동화 등 국제 표준화된 평가 체계 구축의 필요성을 제안한다.

목차

Abstract
I. 서론
II. 본론
1. 오픈소스 AI 위험 평가 프레임워크 개요
2. Moonshot 기반 AI 위험 평가 방법
3. AI 안전성 평가의 표준화 가능성 및 향후 방향3.1. AI
III. 결론
References

저자정보

  • 신성필 Electronics and Telecommunications Research Institute (ETRI)

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 4,000원

      0개의 논문이 장바구니에 담겼습니다.