earticle

논문검색

항공 도메인 특화 언어 모델을 활용한 안전사고 원인 자동 추출 방법

원문정보

Automatic Extraction of Safety Accident Causes Using an Aviation-Specialized Language Model

이하영, 이상원, 최원익

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

Analysis of safety accident reports is crucial for global aviation companies and national agencies to prevent aviation accidents. However, with increasing volume and complexity of these reports, manual analysis has its limitations. Moreover, due to security concerns, using large-scale language models served through the web is often not inapplicable. To address these challenges, this paper proposes a domain-specific natural language processing model called AirGemma, which is specifically designed to extract accident causes from aviation safety reports. AirGemma is built upon the Gemma2-2B model and enhances its domain understanding through Domain Adaptive Pre-Training(DAPT) using aviation-specific data. The performance of the proposed model is further improved by applying Parameter Efficient Fine-Tuning(PEFT). Experimental results show that AirGemma outperforms models without pre-training and fine-tuning in terms of F1-score, ROUGE, and BLEU metrics. Additionally, comparative evaluations using GPT-4 as a judge reveal that AirGemma achieves a higher win rate than GPT-3.5 Turbo, and in single-answer assessments, it demonstrated greater accuracy in accident cause analysis conpared to both LLaMA3-70B and GPT-3.5 Turbo. These findings demonstrate that AirGemma is effective in identifying accident causes within the aviation domain. Designed to operate securely in a local environment, AirGemma offers a new approach to aviation safety accident analysis and prevention.

한국어

전 세계 항공 기업과 국가 기관들은 수십 년간 안전 보고서를 작성하고 이를 분석하여 항공 사고 예방을 위해 지속 적으로 노력해왔다. 그러나 보고서의 규모가 방대해지고 내용이 복잡해짐에 따라 수동 분석만으로는 한계가 있다. 또한, 보안상의 이유로 웹에서 서비스하는 대형 언어 모델의 사용이 어려운 경우가 많다. 이러한 문제를 해결하기 위해 본 논문에서는 항공 안전사고 보고서에서 사고 원인을 추출하기 위해 항공 도메인에 특화된 자연어 처리 모델 인 AirGemma를 제안한다. AirGemma는 Gemma2-2B 모델을 기반으로 항공 도메인 데이터를 활용한 DAPT (Domain Adaptive Pre-Training) 기법을 적용해 항공 도메인 이해도를 향상시켰다. 이후 PEFT(Parameter Efficient Fine-Tuning) 기법을 활용한 미세조정을 통해 사고 원인 추출 성능을 높였다. 실험 결과, AirGemma 가 사전학습과 미세조정을 적용하지 않은 모델 대비 F1-score, ROUGE, BLEU 지표에서 우수한 성능을 기록했 다. 또한 GPT-4를 평가자로 사용한 쌍대비교 결과, AirGemma는 GPT-3.5 Turbo보다 높은 승률을 기록했고 단 일 답변 평가 결과 LLaMA3-70B와 GPT-3.5 Turbo에 비해 사고 원인 분석에 있어 더 높은 사실성 점수를 보였 다. 이러한 결과는 항공 도메인에 특화된 모델이 사고 원인 식별에 효과적임을 입증한다. AirGemma는 항공 산업 데이터의 보안 및 제한 조건을 고려하여 로컬 환경에서 안전하게 동작할 수 있도록 설계되었으며, 항공 안전사고 분 석 및 예방을 위한 새로운 접근 방안을 제시한다.

목차

요약
Abstract
1. 서론
2. 관련 연구
2.1 Gemma
2.2 Domain Adaptive Pre Training(DAPT)
2.3 Parameter Efficient Fine-Tuning(PEFT)
2.4 프롬프트 튜닝(Prompt Tuning)
2.5 대형 언어 모델을 통한 평가(LLM Judge)
3. 모델 학습
3.1 항공 안전 데이터셋
3.2 사전학습
3.3 미세조정
4. 실험
4.1 사고 원인 추출 성능 평가
4.2 대형 언어 모델을 통한 평가
4.3 추론 시간 및 리소스 사용 분석
5. 결론
Acknowledgements
참고문헌
부록

저자정보

  • 이하영 Hayoung Lee. 인하대학교 전기컴퓨터공학과
  • 이상원 Sangwon Lee. 인하대학교 전기컴퓨터공학과
  • 최원익 Wonik Choi. 인하대학교 전기컴퓨터공학과

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      0개의 논문이 장바구니에 담겼습니다.