원문정보
A Study on the Current Status and Perceptions of International Students Using Big Data Analysis
초록
영어
This study investigates the current status and perceptions related to international students through the analysis of a web content dataset using semantic network analysis of big data. Data from blogs, news articles, and academic materials containing the keyword 'international students' were collected from Naver, Daum, and Google from January 1, 2018, to January 13, 2024. Text mining was then employed to calculate frequencies, select and refine key words, and create a matrix dataset for semantic network analysis. The analysis yielded a total of 208,394 words, with the top 60 words in terms of frequency extracted. The top 10 words by frequency included 'Korea', 'university', 'visa,' 'research', 'attract', 'international students', 'domestic', 'students', 'employment,' and 'study'. The TF-IDF analysis, indicating the importance of keywords within the documents, ranked 'Korea', 'visa', 'university', 'research', 'attract', 'international students', 'employment', 'domestic', 'students' and 'support' as the top 10 keywords. Further analysis using UCINET 6 for network centrality and CONCOR(CONvergence of iterated CORrelations) revealed the formation of four clusters. These clusters were named 'Support and Admission for International Students', 'Life and Employment of International Students', 'Status of International Students', and 'Policies and Regional Development Related to International Students'. Utilizing text analysis of web content, this study provides foundational data for policymaking to actively attract and enhance policies for international students by government, universities, and relevant institutions.
한국어
본 연구는 외국인 유학생에 관한 웹 콘텐츠를 대상으로 빅데이터의 의미연결망 분석을 통해 외국인 유학생과 관련된 현황 및 인식을 조사하였다. 2018년 1월 1일부터 2024년 1월 13일까지 네이버, 다음, 구글에서 블로그와 뉴스, 학술자료 등에서 ‘외국인 유학생’을 키워드 로 포함하고 있는 자료를 분석 대상으로 삼았다. 이후 텍스트 마이닝(text mining)을 통해 빈도를 계산하여 중요 단어들을 선정, 정제하고 매트릭스 데이터로 만들어 의미연결망 분석에 이용하였다. 분석결과, 총 208,394개의 단어가 수집되었으며, 그중 상위 빈도 60개의 단어를 추출하였다. 빈도분석 결과 출현빈도가 높은 상위 10위권 단어는 ‘한국’, ‘대학’, ‘비자’, ‘연구’, ‘유치’, ‘외국인 유학생’, ‘국내’, ‘학생’, ‘취업’, ‘유학’ 순으로 웹가시성이 높은 것으로 나타났으며 키워드의 문서 내 중요도를 파악하기 위한 TF-IDF 분석결과, ‘한국’, ‘비자’, ‘대학’, ‘연구’, ‘유치’, ‘외국인 유학생’, ‘취업’, ‘국내’, ‘학생’, ‘지원’ 순으로 나타났다. 후속 작업으로 UCINET 6을 사용하여 텍스트의 네트워크 중심성과 구조적 등위성(CONCOR: CONvergence of iterated CORrelations) 분석을 진행한 결과 4개의 클러스터가 생성되었 다. 각각의 클러스터는 포함된 단어들의 속성에 따라 ‘외국인 유학생 지원 및 입학’, ‘외국인 유학생 생활 및 근로’, ‘외국인 유학생 현황’, ‘외국인 유학생 관련 정책 및 지역 발전’으로 명명하였다. 명명된 4개의 범주는 웹 콘텐츠에 등장하는 외국인 유학생 관련 텍스트의 이용층과 그들의 주된 관심사를 보여주었고 이를 활용하여 외국인 유학생을 적극적으로 유치하기 위한 활성화 방안과 정부, 대학, 유학관련 기관의 정책수립에 필요한 기초자료를 제시하였다.
목차
Ⅰ. 서론
Ⅱ. 이론적 배경
2.1 외국인 유학생 현황
2.2 빅데이터 및 텍스트 마이닝(Big Data and Text Mining)
Ⅲ. 연구방법
3.1 데이터수집
3.2 분석방법
Ⅳ. 분석결과
4.1 키워드 빈도 분석과 TF-IDF 분석
4.2 주요 단어 중심성 분석
4.3 구조적 등위성(CONCOR) 분석
Ⅴ. 결론
참고문헌
국문 초록