초록 열기/닫기 버튼

코퍼스는 언어의 실질적인 연구 및 교육을 위한 중요한 도구이다. 현재 프랑스어 코퍼스로는 프랑텍스트(Frantext)가 가장 대표적이다. 그런데 프랑텍스트는 문학 텍스트로 구성되어서 프랑스어의 변화를 제대로 반영하지 못한다는 단점이 있다. 이러한 측면에서, 인터넷 웹 페이지를 바탕으로 한 웹 코퍼스(Web comme corpus)가 하나의 대안이 될 수 있다. 웹 코퍼스를 바탕으로 한 가장 대표적인 프랑스어 코퍼스는 스케치엔진(Sketch Engine)에서 구축한 코퍼스들이다. 이와 함께, 부트켓(BootCat)과 같은 웹 크롤링(Web crawling) 도구를 사용해서 개인이 직접 코퍼스를 구축하는 방법도 있다. 본 논문은 프랑텍스트, 스케치엔진 코퍼스 그리고 개인이 구축한 코퍼스에서 특정 키워드를 중심으로 공기어를 추출하고, 각 코퍼스에서 어떤 차이가 있는지 비교 분석하였다. 구축 시기 및 구성 텍스트에 차이가 있어서, 코퍼스에 따른 특징적인 공기어 분포가 나타났지만, 가장 일반적인 단어는 서로 유사하다는 것도 확인할 수 있었다. 코퍼스 기반 프랑스어 연구 및 교육이 여전히 미진한 현실에서 그리고 활용할 수 있는 프랑스어 코퍼스가 많지 않다는 측면에서, 본 논문에서 살펴본 코퍼스들을 연구 및 교육 목적에 따라서 적절히 선택해서 활용한다면, 매우 유용한 도구가 될 수 있음을 확인하였다.


Aujourd'hui, le corpus est une ressource essentielle pour l'étude et l'enseignement pratique des langues. Le Frantext est actuellement un des corpus les plus représentatifs du français. Pourtant, il aurait des limites pour refléter des changements du français, car les textes français sont des textes littéraires. Le Web comme corpus construit à partir des pages Web d'Internet pourrait être utilisable, puisque les pages Web sont écrites de différentes manières et en différentes langues. Dans cet article, nous avons tenté d'extraire les cooccurrences autour de trois mots-clés (année, président, homme) dans le Frantext, Sketch Engine et les corpus personnels et d'en comparer des caractéristiques lexicales. À cause de l'hétérogénéité des genres, chaque corpus a présenté une différence lexicale de cooccurrences. Pourtant, nous avons aussi vu que des cooccurrents primordiaux sont similaires. Si nous utilisons un corpus approprié dans le but d'étudier et d'apprendre le français, les corpus examinés dans notre article seront utiles comme mégadonnées de nombreux exemples français.