원문정보
초록
일본어
本稿は日本語タグ付きコーパス(tagged corpus)の構築方法について、高麗大学李漢燮教授研究室で作業が 進められている、日韓並列コーパス構築の際の問題点を交えながら述べたものである。本稿ではまずテキストコーパス と音声コーパスの違い、また生コーパスとタグ付きコーパスとの違いについて説明し、各研究分野におけるさまざまな形 態のコーパスについても見てきた。そしてタグ付きコーパスがなぜ必要なのか、その必要性について述べた。タグ付きコ ーパスの実際の構築方法についても詳しく触れ、各段階における注意点やどうすれば有用なコーパスを構築すること ができるのかを考えてみた。 そして、タグ付け作業時における手作業と自動化の各方法を比較し、その長所と短所について正確で効率的という 観点から検証してみた。その結果、最も現実的な方法としては、まず各種のタグ付け支援プログラムを利用して、全体 的な加工を行なった後、手作業でプログラムの誤認識を修正し、編集していくという方法であった。しかしプログラムを 使うこの方法では、プログラム側の仕様によって、求めている作業結果が得られないものも多く、常に自分の研究目的 に合ったプログラムを探さなければならないという難点がある。しかし全ての作業を一つのプログラムに依存するのでは なく、各々のプログラムの持つ特徴や長所などを把握し、様々なプログラムを組み合わせて自動化作業をすることがで きれば、より早く、より正確に、より大量のタグ付きコーパスを構築することができるということを確認した。 コーパスの価値を決める均衡性、妥当性、一貫性を維持したタグ付きコーパスを構築するためには、様々なプログ ラムに関する知識と、それをうまく組み合わせて活用することのできる能力が、これからは必要不可欠になっていくであろ う。
목차
1. 들어가며
2. 코퍼스의 종류
3. 코퍼스의 활용분야
3.1 문법 연구 분야
3.2 어휘 연구 분야
3.3 음성 연구 분야
3.4 담화 분석 연구 분야
3.5 교육 연구 분야
4. 일본어 주석 코퍼스(tagged corpus)의 구축
4.1 자료선정
4.2 자료의 입력
4.3 입력 자료 확인 및 수정
4.4 주석(tag)의 부여
5. 문제점 및 해결 방안
6. 마치면서
参考文献
