earticle

논문검색

일반논문

제주 다문화 아동 언어 말뭉치 구축 연구 - 제주형 CHILDES 표기 규약과 AI 자동화 파이프라인을 중심으로 -

원문정보

Building a Language Corpus for Multicultural Children in Jeju - Focusing on Jeju-specific CHILDES Conventions and AI Automation Pipelines -

손범기

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

With multicultural marriages accounting for 13.3% of the total in 2024, Jeju is experiencing a rapid demographic shift, creating a complex linguistic environment where bilingualism coexists with the local dialect. Existing assessment tools, designed for monolinguals, fail to accurately capture the linguistic potential of multicultural children in this setting. Even Language Sample Analysis, considered the most valid method, is limited in clinical use by significant time constraints and a lack of norms. In response, this study proposes the "Jeju-specific CHILDES CHAT Transcription Conventions" and an automated pipeline for efficient assessment. Adhering to ISO 3166-1 and ISO 639-3 standards for interoperability, the conventions categorize subjects by background (e.g., MC-VN, MC-CN), notably subdividing Chinese families into Han (MC-CN-H) and Korean-Chinese (MCCN- K) to control for variables like the Yanbian dialect. Specific markers are introduced to quantify language patterns: @s for bilingual interference, @d for Jeju dialect density, and @d:yb to distinguish the Yanbian dialect. To ensure practical application, the study also presents an "AI-based Automation Pipeline." This hybrid architecture integrates AI speech recognition with external morphological analyzers, drastically reducing transcription time while enhancing accuracy. These standardized conventions and automated methodologies will serve as a foundation for the future "Jeju Multicultural Children's Language Corpus," facilitating tailored clinical diagnosis and educational support.

한국어

최근 제주 지역은 2024년 기준 전체 혼인의 13.3%를 차지할 만큼 다문화 인구 비중이 급격히 확대되고 있으며, 이로 인해 가정 내 이중언어 사용과 지역사회의 제주 방언이 혼재하는 독특하고 복합적인 언어 환경이 형성되고 있다. 제주 다문화 아동들은 이러한 다층적인 환경에서 성장하고 있으나, 기존의 표준화된 검사 도구는 단일 언어 사용자를 기준으로 설계되어 이들의 언어적 잠재력과 차이를 정확히 변별하는 데 한계가 있다. 이에 가장 타당한 평가 방법론으로 간주되는 자발화 표본 분석(LSA)은 전사 및 분석에 소요되 는 막대한 시간적 부담과 참조 규준의 부재로 인해 임상 현장에서의 활용이 제한적인 실정이다. 이에 본 연구는 다문화 아동의 언어 능력을 타당하고 효율적으로 평가하기 위한 ‘제주 형 CHILDES CHAT 표기 규약’ 시안과 이를 구현할 기술적 파이프라인을 제안한다. 구체적으로 본 규약은 데이터의 국제적 상호운용성을 확보하기 위해 ISO 3166-1 및 ISO 639-3 국제 표준 코드를 준용하여 연구 대상을 베트남(MC-VN), 중국(MC-CN) 등으로 체계화하 였다. 특히 중국계 가정의 경우 한족(MC-CN-H)과 한국계 중국인(MC-CN-K)으로 세분 화하여 연변 방언 등의 언어적 변인을 정밀하게 통제할 수 있도록 설계하였다. 또한, 이중 언어 간섭을 분석하기 위한 코드 스위칭 마커(@s)와 지역 방언 사용 비중을 측정하기 위한 제주어 마커(@d), 그리고 연변 방언 구분을 위한 확장 마커(@d:yb)를 도입하여 다층 적인 언어 사용 양상을 정량화할 수 있는 기틀을 마련하였다. 더불어 본 연구는 이러한 정밀한 전사 과정이 연구 현장에서 실질적으로 작동할 수 있도록 ‘AI 기반 자동화 파이프라인’을 함께 구축하였다. 이는 최신 AI 음성 인식 기술과 고성능 외부 형태소 분석기를 연동하여 전사 시간을 획기적으로 단축하고 분석의 정확도 를 높이는 하이브리드 분석 아키텍처이다. 본 연구가 제안하는 표준화된 규약과 자동화된 방법론은 향후 구축될 ‘제주 다문화 아동 언어 말뭉치’의 견고한 초석이 될 것이며, 이를 통해 대상 아동의 특성에 부합하는 맞춤형 임상 진단 및 교육적 지원을 실현하는 데 기여 하고자 한다.

목차

<국문초록>
1. 들어가며
2. CHILDES 프로젝트에 대해서
3. 제주형 CHAT 표기 규약 정립에 고려해야 할 사안
4. AI 기반 자동 전사 및 분석 파이프라인 구축
5. 맺음말
참고문헌

저자정보

  • 손범기 Son, Bumki. 제주대학교 인문대학 일어일문학과 부교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 6,100원

      0개의 논문이 장바구니에 담겼습니다.