지난번 워드클라우드 게시글에 2020년 01월 08일부터 2020년 03월 31일까지 '관광'이라는 키워드로 검색한 신문기사를 수집하여 분석했습니다. 기간은 국내 최초 코로나 바이러스 의심 환자가 보고된 01월 08일 부터 분석시점인 03월 31일까지를 기준으로 하였습니다. 이에 해당 기간동안 코로나 바이러스가 관광에 큰 영향을 미쳤다는 것을 알 수 있었습니다. 이번엔 2019년 1년간의 신문 데이터를 수집.분석해 보겠습니다. 작년 한해 '관광'을 키워드로 수집한 데이터를 분석한 결과는 다음과 같습니다.
코드는 지난번 워드클라우드 코드와 동일하며, 전처리만 해당 문서에 맞게 변경하였습니다.
지난 1년은 북한과의 관계 개선노력과 그로 인한 북한관광에 대한 기대가 높았던 한해였습니다. 북한, 금강산, 정상회담, 통일, 남북, 김정은 등의 키워드가 눈에 띄네요. 이외에도 대통령, 문화, 사업, 정부 등의 키워드가 높게 나타났습니다. 지역은 제주, 서울, 경기등의 기존 유명 관광지와 부산, 대구, 경북, 해양 등의 키워드가 나타났습니다. 이는 작년 한해 해양관광에 대한 관심이 높았다는 것을 보여줍니다. 어촌뉴딜 300사업 등 어촌마을 및 바다를 활용하려는 정부의 노력도 한몫 했을 것입니다.
‘어촌뉴딜300’은 전국 어촌·어항 기반시설을 현대화하고 어촌이 보유한 핵심자원을 활용해 차별화된 콘텐츠를 발굴함으로써 어촌지역에 활력을 불어넣고, 어촌 주민의 삶의 질을 높이기 위한 사업이다. -정책위키-
제가 인턴으로 일했던 관광컨설팅 회사에서도 해당 프로젝트에 참여했었습니다. 당시 통영의 5개 마을을 담당했었으며, 그중 4개의 마을이 최종 선정되어 매우 보람을 느꼈던 기억이 있습니다. 제가 참여했던 프로젝트와 연관된 키워드가 나타나니 반갑군요.
워드 클라우드는 한눈에 알아보기 좋은만큼 두개의 결과물을 비교하기도 좋습니다. 해당 데이터의 컬럼중 신문사 컬럼을 활용하여 신문사의 성향에 따른 차이가 나타나는지를 비교해보면 재밌을것 같습니다.
보수성향으로 유명한 신문사는 크게 '조선일보', '중앙일보', '동아일보'가 있습니다. 이와 반대로 진보성향의 신문사는 '한겨레', '경향신문'을 들곤 합니다. 이 두 집단사이에 키워드 차이가 나타나는지 비교해 보도록 하겠습니다.
한눈에 가장 큰 차이가 나는 부분은 진보성향 일간지의 '제주'가 매우 크다는 것입니다. '관광'키워드의 기사 중 제주관련 기사는 진보성향의 일간지에서 많이 다루고 있음을 알 수 있습니다. 지역은 보수성향 일간지의 경우 '서울'이, 진보성향 일간지의 경우 '부산', '대구', '경기'가 높게 나타났습니다. 그 외의 부분은 비슷해 보입니다.
관광 분야에선 신문사의 성향에 따라 나타나는 차이가 크지 않아 보입니다.
위처럼 워드 클라우드는 한눈에 보기 좋은 그림을 만들 수 있고 다양한 주제의 키워드를 비교, 나열하기도 쉽다는 것을 알 수 있었습니다. 빈도를 바탕으로 한 직관적이고 가장 간단한 텍스트 마이닝 방법, 워드클라우드였습니다.
'데이터분석 저장소 > R 저장소' 카테고리의 다른 글
잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) (0) | 2020.05.21 |
---|---|
워드클라우드 (0) | 2020.05.07 |
데이터 핸들링 (0) | 2020.03.26 |
R 데이터 구조 및 기본 문법 (0) | 2020.03.22 |
R studio 다운로드 및 설정 (0) | 2020.03.21 |