earticle

논문검색

구어 일본어 형태소 정보부여를 위한 형태소분석 프로그램의 활용과 문제점

원문정보

손영석, 이창익

피인용수 : 0(자료제공 : 네이버학술정보)

초록

일본어

大量の発話・発話場面データにもとづいて話者の言語運用の実態が調べられる対談番組のマルチメディア・コーパスを、今後より多面的な分析に活用するため、コーパスにおける40時間分の音声文字化テキストをβ単位に分類し単位ごとに見出し語・品詞・語種を付与・搭載したが、その際、本来書きことばの解析のために開発された形態素解析プログラムを用いたことから、大量の誤解析が発生した。用いたプログラムは形態素解析システム用の日本語辞書“UniDic(1.3.12)”とオープンソース形態素解析エンジン“MeCab(0.993)”である。そして、その解析結果の精密度を測るためにサンプリング調査を行ったところ、β単位への分類及び各種の言語情報の付与は約97.52%の精密度で自動的に解析できるということ、その精密度は対談番組の対談形式によって大きく異なるということ、誤解析は主として「終助詞・間投助詞」「擬音語・擬態語」「感情表出表現」「未登録語(固有名詞・方言など)」「語形変化が伴った語」「非語彙的な母音・子音の拡張及び縮約が伴った語」のいずれかの言語項目において頻出するということなどが明らかになった。このように誤解析のパターンを今後とも精密に記述していけば、話しことばに十全に対応できる形態素解析プログラムの開発や、誤解析の発生を軽減させながら大量かつ精密に音声を文字化する方法論の模索にもつながると考える。

목차

1. 들어가기
 2.  『대담방송 멀티미디어 코퍼스』
 3. 형태소분석 프로그램을 활용한언어정보의 부여
 4. 형태소분석 프로그램을 활용한언어정보 부여의 문제점
  4.1 대담방송의 대담형식별 오분류
  4.2 오분류 빈출 언어그룹 및 요인
 5. 마치며
 [參考文獻]
 <要旨>

저자정보

  • 손영석 제주대학교 강사
  • 이창익 제주대학교 교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 5,400원

      0개의 논문이 장바구니에 담겼습니다.