본문 바로가기

전체 글

도수분포표와 히스토그램 데이터를 해석할 때 가장 우선시 되는 것은 데이터를 효율적으로 요약하여 특징을 추출하는 것입니다. 데이터를 요약.정리하는 방법은 크게 두가지가 있습니다. 도표나 그래프로 시각화 하는 방법, 또 수치를 활용하는 방법입니다. 도표나 그래프는 데이터가 대략 어떤 방식으로 구성되어 있는지를 확인할 수 있습니다. 수치는 보다 정확하게 데이터를 살펴볼 수 있습니다. 이번엔 도표와 그래프를 살펴보겠습니다. 가장 기본적인 단변량 데이터 요약 방법으로는 도수분포표와 히스토그램이 있습니다. 데이터를 값의 크기에 따라 분류할 때, 각각의 계급에 속하는 데이터 수를 도수라고 합니다. 이를 표로 나타낸 것이 도수분포표입니다. 도수분포표를 살펴볼 때, 미리 알아두어야 할 것이 있습니다. 계급값은 각 계급을 대표하는 수치로 계급의.. 더보기
잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) LDA, Latent Dirichlet Allocation Woonn 2020-05-21 1. LDA란? 1.1 LDA의 정의 및 가정 Latent Dirichlet Allocation(잠재 디리클레 할당)이란 텍스트마이닝의 방법중 하나업니다. 텍스트를 DTM(Document-Term Matrix)으로 만들어 단어의 등장 빈도에 따라 텍스트를 분류합니다. 단어가 모이면 문장을 이루고 문장이 모이면 문서를 이루게 됩니다. 그릭고 문서, 문장 안에서도 서로 묶이는 단어들이 있습니다. 이를 바탕으로 문서 전체를 분석하여 단어끼리의 경향성을 계산하고, 그 문서를 대표하는 특정 토픽을 찾아내는 것, 그것이 LDA의 목적입니다. LDA에는 몇 가지 가정이 있는데 그 중 중요한 것은 단어의 교환성(exchangeab.. 더보기
워드클라우드('19년도', '관광') 지난번 워드클라우드 게시글에 2020년 01월 08일부터 2020년 03월 31일까지 '관광'이라는 키워드로 검색한 신문기사를 수집하여 분석했습니다. 기간은 국내 최초 코로나 바이러스 의심 환자가 보고된 01월 08일 부터 분석시점인 03월 31일까지를 기준으로 하였습니다. 이에 해당 기간동안 코로나 바이러스가 관광에 큰 영향을 미쳤다는 것을 알 수 있었습니다. 이번엔 2019년 1년간의 신문 데이터를 수집.분석해 보겠습니다. 작년 한해 '관광'을 키워드로 수집한 데이터를 분석한 결과는 다음과 같습니다. 코드는 지난번 워드클라우드 코드와 동일하며, 전처리만 해당 문서에 맞게 변경하였습니다. 지난 1년은 북한과의 관계 개선노력과 그로 인한 북한관광에 대한 기대가 높았던 한해였습니다. 북한, 금강산, 정상회.. 더보기
워드클라우드 WordCloud Woonn 2020-05-07 0. 워드클라우드란? 자료의 빈도를 시각적으로 나타내는 시각화 방법중 하나로 키워드, 개념 등을 직관적으로 파악할 수 있다는 것이 가장 큰 장점입니다. 보통 문서나 수집한 비정형 데이터의 특징을 도출하기 위해 사용합니다. 1. 활용 패키지 및 라이브러리 #install.packages("wordcloud") #install.packages("RColorBrewer") #install.packages("KoNLP") #install.packages("xlsx") library(wordcloud) library(RColorBrewer) library(KoNLP) library("readxl") library(dplyr) library(tidyverse) lib.. 더보기
데이터 핸들링 Data handling Woonn 2020-03-27 먼저 reshape2 패키지가 필요합니다. #install.packages("reshape2") library("reshape2") 패키지를 불러왔으니 실습을 위해 score라는 변수에 학생 10명의 3과목 성적을 랜덤하게 입력해 보겠습니다. set.seed는 여러분과 저의 결과물이 동일하게 나오도록 랜덤추출한 수치를 고정시켜주는 역할을 합니다. set.seed(1111) score subject a b c d e f g h i j #> 1 국어 43 25 89 62 76 1 84 83 17 51 #> 2 수학 53 35 94 38 53 17 80 92 97 12 #> 3 영어 49 69 59 64 23 22 68 51 73 49 위와 같은 표를 m.. 더보기
R 데이터 구조 및 기본 문법 먼저 데이터 구조와 기본적인 문법을 익혀보도록 하겠습니다. 기본적으로 R은 다음과 같은 데이터 구조를 갖습니다. a. Vector b. Matrix c. Array d. Data.frame e. List a. Vector(벡터) 벡터는 숫자, 문자 또는 논리형 데이터를 취할 수 있는 일차원 배열입니다. 이때 벡터 안에는 반드시 하나의 유형의 데이터만 들어갈 수 있습니다. b. Matrix(행렬) 행렬은 요소들이 동일한 모드(숫자, 문자 등)인 이차원 배열입니다. c. Array(배열) 배열은 행렬과 비슷하지만 두개보다 많은 차원을 가질 수 있습니다. d. Data.frame(데이터 프레임) 데이터프레임은 열마다 다른 데이터 유형을 포함 할 수 있다는 장점이 있습니다. 데이터 프레임은 R에서 활용하는 가장.. 더보기
R studio 다운로드 및 설정 #1. R studio 다운로드 보다 편리하게 R을 사용하기 위해 아래 주소를 통해 R studio를 다운로드하여 봅시다. https://www.rstudio.com/products/rstudio/download/ Download RStudio RStudio is a set of integrated tools designed to help you be more productive with R. It includes a console, syntax-highlighting editor that supports direct code execution, and a variety of robust tools for plotting, viewing history, debugging and managing rstud.. 더보기
R 설치 #1. R이란? R은 오픈소스 프로그램으로 통계/데이터 마이닝 및 그래프를 위한 언어이다. R은 주로 연구 및 산업별 응용 프로그램으로 많이 사용되고 있으며, 최근에는 기업들이 많이들 사용하기 시작했다. 특히, 빅데이터 분석을 목적으로 주목을 받고 있으며, 5000개가 넘는 패키지(일종의 애플리케이션)들이 다양한 기능을 지원하고 있으며 수시로 업데이트되고 있다. [네이버 지식백과] R (국립중앙과학관 - 빅데이터) 오픈소스 프로젝트로 진행되고 있는 R은 통계 계산과 결과 생성 그래픽을 위한 프로그래밍 언어로 특히 그래픽 부분에서 다른 언어(특히, 최근 주목받고 있는 파이썬)에 비해 강세를 보입니다. R은 전 세계 개발자들이 각종 패키지를 개발 및 공개하고 있어 사용자층과 용도가 급속도로 확장되고 있습니다.. 더보기