데이터분석 및 프로젝트 (12) 썸네일형 리스트형 한국복지패널데이터를 분석하여 봅시다 :) part2 이번에는 직업데이터를 활용해서 다양한 분석을 해보겠습니다. 먼저 직업별 월급 차이를 알아 볼 건데요, 먼저 변수를 검토하고 전처리를 해보겠습니다. 먼저 직업을 나타낸 변수에 대해 알아보겠습니다. table(welfare$code_job) 결과를 보시면 직업코드들을 보실 수 있습니다. 직업분류코드를 이용해서 직업명칭 변수를 만들어야 합니다. 직업분류코드 목록을 불러와서 데이터프레임형태로 만들어 줍니다. list_job % select(code_job, job) %>% head(10) 결과를 확인하면 잘 합쳐진 것을 알 수 있습니다. 이제 이 변수를 이용해서 직업별 월급차이를 분석해보겠습니다. 변수간의 관계를 확인해보죠. 먼저 직업별 월급 평균을 구해보겠습니다. job_income % filter(!is.n.. 선형회귀분석에 대해 알아보고 코드를 음미해봅시다:) 이번엔 선형회귀분석에 대해 알아보는 시간을 가져보겠습니다. 용어들과 코드 한 줄 한 줄 이해할 수 있도록 실습도 해봅시다. 먼저 회귀분석이란 두 변수(독립변수와 종속변수)사이의 함수적 관계를 기술하는 수학적 방정식을 구하는데 사용합니다. 무슨 말이냐면 변수들 사이에 어떠한 연관성을 발견하고 이를 통해 종속변수의 값을 추정하거나 예측하는데 사용하게 됩니다. 두 변수끼리 일종의 인과관계를 갖게 되는 것이죠. 여기서 선형회귀분석이란 말 그대로 모델이 Linear(선형)한 경우, 즉 y= ax + b 형태의 모델을 이용하여 예측 및 분석하는 방법입니다. 선형모델이기 때문에 복잡한 추세를 가지는 데이터일수록 오차가 크지만, 비교적 간단하게 계산할 수 있고, 대략적인 상관관계 및 그 정도를 유추할 수 있어 기본적인.. 한국복지패널데이터를 분석하여 봅시다 :) part1 예전 글을 정리하던 중 실무에서도 기본적으로 사용할 수 있을 아주 좋은 예제를 발견하여 올려봅니다. 한국복지패널데이터에서 발간된 데이터를 이용한 예제입니다. 이 데이터는 한국보건사회연구원에서 가구의 경제활동을 연구해 정책 지원에 반영할 목적으로 발간한 자료입니다. 엄밀한 절차로 수집되었고, 아주 다양한 변수들이 있어서 데이터분석 연습하는데 아주 좋은 데이터입니다. 이 데이터를 이용해 우리나라 사람들이 어떻게 살아가는지 확인해봅시다 :) 먼저 데이터는 한국복지패널 사이트에 가시면 받아볼 수 있습니다. 저는 2016년 자료를 활용했습니다. sav 파일을 받으시면 되는데, 이것은 통계분석프로그램 SPSS 전용파일입니다. foreign 패키지를 이용해서 불러와줍니다. ##데이터 불러오기 install.packa.. [정보이론] 위너-킨친 정리에 대해 알아봅시다:) 위너 킨친 정리는 랜덤 프로세스가 stationary일 경우 자기상관함수가 시간차의 함수와 같게 되며, 에르고딕하다면 시간 평균에 대해서도 자기 상관함수와 같은 값을 가지게 됩니다. 그러므로 시간차로 나타낸 자기상관함수와 전력스펙트럼밀도(PSD)가 푸리에 관계에 있다는 것이 위너 킨친 정리입니다. Rx(τ) Sx(f) 자기상관함수 전력스펙트럼밀도 위너-킨친 정리의 증명과정을 정리해보겠습니다. 자기상관함수와 전력스펙트럼밀도가 푸리에 관계에 있다는 것을 증명할 것입니다. => t = u+v, s=u로 치환합니다. 자코비안을 사용하면 원래의 좌표축에서 새로운 좌표축으로 옮겨지게 됩니다. 그렇게 되면서 dtds가 |J|duds로 바뀌게 됩니다. 여기서 |J|는 으로 되어 |J|는 1이됩니다. 또한 변하는 좌표계.. 기사를 크롤링하여 mysql에 넣어보자 :) 기사를 크롤링하여 mysql에 넣어보자 :)¶ 아래 글중에 조선일보 기사를 크롤링하여 워드 클라우드를 했던 글이 있습니다. 해당글의 크롤링 코드들을 이용하여 크롤링한 기사들을 제목과 내용으로 구분지어 바로 mysql로 넣어보겠습니다. In [1]: from urllib.request import urlopen from bs4 import BeautifulSoup In [2]: import nltk import re In [62]: url_base="http://news.chosun.com/site/data/html_dir/2019/12/02/20191202" last='.html' title=[] news_list=[] for i in range(3000): index=str(i) if len(index.. Folium 지도에 heatmap을 이용하여 빈도수를 표현해보자 :) 파이썬 Folium지도에 heatmap을 이용하여 빈도수를 표현해봅시다 :)¶ 예전에 프로젝트을 진행할 때 지도에 사고 빈도를 어떤 것으로 표시하는 것이 좋을까에 대한 고민을 했던 적이 있습니다. 당시 이것저것 시도해봤었는데 저는 히트맵으로 표시하는 것이 제일 보기 좋았습니다.ㅎㅎ 당시에는 여기저기 찾아보면서 코드를 구성했던 기억이 있는데 제가 썼던 제이슨 파일은 첨부할 수 없지만 참고용으로 봐주시면 감사하겠습니다:) In [14]: import json import folium from folium.plugins import HeatMap In [9]: json_data=open('제이슨파일.geojson', encoding='utf-8').read() data = json.loads(json_data.. 수열을 통해 마코프 체인의 단서를 얻어보자 :) 제가 첨부 파일로 올린 수열은 마코프 체인으로부터 얻어졌습니다. 하지만, 이 수열이 마코프 성질을 가지고 있는지 여부를 미리 알 수 없었다고 가정했을 때, 이 수열이 마코프 성질을 가지고 있다는 (=마코프인지 아닌지) 단서를 얻을 수 있는 방법에 대해 설명해 보겠습니다. 먼저 주어진 수열이 마코프 성질을 가지고 있는지 아닌지를 판단하기 위해 마코프 성질에 대해 먼저 언급하려합니다. 마코프 성질의 정의는 이렇습니다. 이 말을 조금 더 쉽게 설명하기 위해 베르누이과정(Bernoulli Process)의 예를 들어보겠습니다. 베르누이과정은 독립적으로 수행되며, 오로지 두 결과 값만을 갖는 사건이 연속적으로 발생 하는 확률과정을 말합니다. 베르누이 실험이라는 것은 결과가 ‘랜덤’하게 둘 중 하나만 나오는 실험입.. 머신러닝을 이용해 데이터분석에 필요한 기초지식을 습득해보자 :) 이번 글에서는 머신러닝의 기본 개념을 알아보고, 주로 사용되는 머신러닝 기술, 이를 이용한 실습을 해보겠습니다. 먼저, 머신러닝이랑 인공지능의 하위 분야입니다. 명시적인 프로그램이 없어도 컴퓨터가 학습 할 수 있는 능력을 주는 방법이라고 할 수 있겠네요. 컴퓨터가 직접 데이터를 학습해 특징들을 추출하고 알고리즘을 연구하거나 구축한다는 개념이라고 알면 되겠습니다. 머신러닝의 카테고리로는 크게 교사(supervised)학습, 비교사(unsupervised)학습으로 나눠집니다. 교사학습이란 학습하는 데이터의 정확한 클래스를 알고 있을 때 학습하는 것을 말합니다. 비교사학습은 눈치 채셨겠지만, 학습 데이터의 클래스가 알려져 있지 않을 때 학습하는 것을 뜻합니다. 이외에 반교사학습, 강화학습등도 있습니다. 머신러.. 이전 1 2 다음