본문 바로가기

컴퓨터 활용/통계와 데이터과학19

상점 신용카드 매출 예측, 데이터 전처리 데이터 전처리 데이터를 본격적으로 처리하기 이전에 데이터를 정제하는 과정입니다. 원 자료에는 데이터를 효과적으로 처리하기 곤란한 형태의 칼럼이나 결측치가 많아 결과를 왜곡할 수 있는 요소가 있습니다. 이런 것들을 선별하여 본 처리에 앞서 데이터 처리를 하는 것을 말합니다. 데이터 전처리는 탐색적 데이터 분석 과정을 먼저 진행하고 뒤에 처리하는 경우도 있고 그 반대의 경우도 있습니다. 대부분의 경우는 두 과정이 서로 앞서거니 뒤서거니 애자일 방식으로 진행되어야 하지 싶어요. 탐색을 통해 데이터의 특성이나 결측을 알아낼 수 있고 전처리를 하면서도 탐색은 가능하기 때문입니다. Colab 환경 조성 파이썬 버전 확인 현재 디렉토리 확인 드라이브 마운트 작업 디렉토리로 이동 노이즈 제거 데이터에서 노이즈는 이상치.. 2022. 4. 29.
아나콘다 가상환경 구축, 데이콘 경진대회 1등 솔루션 Ch04 아나콘다 가상환경 구축 아나콘다 설치 아나콘다 홈페이지에서 설치 파일을 내려받아 설치합니다. 설치 후에 아나콘다 네비게이터를 실행하면 다음과 같은 아나콘다로 할 수 있는 각종 툴들이 나타납니다. 가상환경을 구축하기 위해서 'Powershell Prompt'를 엽니다. 가상환경 구축 아나콘다 프롬프트를 통해 프로젝트를 진행할 가상환경을 구축합니다. 아나콘다 프롬프트를 열고 'store_amount_prediction'이라는 이름이 가상환경을 생성합니다. Python은 3.7버전으로 설정합니다. 명령어는 아래와 같습니다. >conda create -n store_amount_prediction python=3.7 구축된 가상환경을 활성화합니다. >conda activate store_amount_predic.. 2022. 4. 8.
세미나 자료, 4월 8일 상점 신용카드 매출 세미나 파이썬 코딩에서는 들여 쓰기가 매우 중요하군요. 그 한 줄, 들여 쓰기 착오가 큰 차이를 가져왔네요. 올바른 함수 함수 들여쓰기 착오 문제는 함수였습니다. '이중 반복문'에서 removed_data를 모으는 조건문에 문제가 있었습니다. for문에 포함될 과정이 조건문에 들어 있었네요. 불필요한 과정이 조건화되어 나타나는 오류였습니다. 오류 수정 후 이 과정에서 소요되는 시간은 시스템에 많이 제한을 받습니다. '아나콘다'로 수행했을 때도 비슷한 시간이었지만 시스템 사양이 떨어지는 노트북에서는 시간이 많이 소요됐습니다. 코랩에서는 비교적 비슷한 시간이었습니다. 10분 내외 시간에 작업은 끝났습니다. 2022. 4. 6.
Monkey 데이터에 KingKong 한 마리가 들어왔다 어떤 통계의 허와 실 어느 신문 기사다. 시도교육감 재산 공개에서 평균 3.5억이 증가했다는 자극적 기사다. 교육감들 재산이 1년만에 평균 3.5억이 늘 수 있나 궁금했다. 알고보니 원숭이 통계를 보여준다면서 킹콩 한 마리를 끼워 넣은 셈이다. 대구 강은희 교육감의 재산이 1년에 42억 늘었으니, 한 사람의 이상 통계치가 교육감 재산 결과를 왜곡시킨 것이다. 그 내용을 뻔히 알 수 있는 기자가 기사 꼭지를 저따위로 잡았고, '기사내용 요약'에 교육감 재산이 1년만에 평균 3.5억이 늘었다는 얼토당토 않은 진술을 한 것이다. 오호통재라! 중학교 교육만 제대로 받았어도 상식적으로 알 수 있는 내용을 정론을 펼쳐야 할 언론사 기자가 이런 식으로 보도를 하다니. 한심하다. 원숭이 데이터, 킹콩 데이터 등의 비유.. 2022. 4. 2.
새 권력의 심장부를 구글트렌드로 읽다 새 권력의 심장 대선이 끝났다. 구글트렌드의 웹 검색에 앞섰던 이재명이 낙선하고, 뉴스 검색과 유튜브 검색에서 앞섰던 윤석열이 차기 대통령으로 당선됐다. '국민의힘'의 승리로 새권력이 등장했다. 당선자를 제외하고 영향력이 크다싶은 다섯 사람을 구글트렌드로 읽었다. 웹 검색, 뉴스 검색, 유튜브 검색. 이렇게 세가지 트렌드를 비교해 보자. 웹 검색 구글트렌드 인수위원장을 맡은 안철수가 단연 앞선다. 그 뒤를 이준석 당대표. 그리고 장제원, 원희룡, 권성동이 뒤를 잇는다. 뉴스 검색 구글트렌드 뉴스 검색 트렌드는 안철수와 이준석이 비슷하다. 인수위원장과 당대표가 비슷한 비중으로 뉴스에서 다뤄지지 싶다. 유튜브 검색 구글트렌드 유튜브 검색도 웹 검색과 마찬가지로 인수위원장 안철수가 우세를 보인다. 특히 인수위.. 2022. 3. 19.
어려워진 20대 대선 출구조사 공동출구조사 지상파 방송 3사 KBS·MBC·SBS가 20대 대통령선거 출구조사를 실시해 오후 7시 30분에 결과를 공개한다. 오후 6시가 아니고, 오후 7시 30분인 것은 코비드 상황에서 빚어진 확진자와 격리자 투표가 6시 이후에 진행되기 때문이다. JTBC도 별도의 출구조사를 해 같은 시간에 발표한다. 출구조사 방법 조사원이 투표소 50m 밖에서 대기하고 있다가 투표를 마친 유권자에게 어느 후보를 선택했는지 조사하는 방식이다. 하지만 공직선거법상 사전투표에서의 출구조사는 금지되어 있다. 본투표 당일 오후 6시부터 이뤄지는 확진자와 격리자 투표도 출구조사에 반영되지 않는다. 절반의 선택으로 모수를 추정할 수 밖에 없는 상황이다. 20대 대선의 출구조사의 한계 4일과 5일 실시된 사전투표율은 사상 최대인.. 2022. 3. 9.
구글트렌드가 만든 흥미로운 그래프 20대 대선 20대 대선 출마자는 14명. 그중 김동연 후보와 안철수 후보가 사퇴하고 끝까지 남은 후보는 12명이다. 그 후보들 중에서 투표 결과에 영향을 끼칠 후보는 4명. 이재명, 윤석열, 심상정, 허경영. 네 후보에 대한 구글트렌드가 궁금하다. 지난 한 달간. 이 그래프가 말하는 것이 궁금하다. 다섯 사람에 대한 구글트렌드 비교 여기에 한 사람을 보태보자. '안철수'. 그는 끝까지 경쟁하겠다는 자신의 약속을 대선 6일 전에 굽혔다. 기묘한 굴절 안철수가 '단일화를 선언'한 그 시점을 전후로 웹 검색 트렌드 변화가 흥미롭다. 궁금한 이 그래프 이 그래프가 말하는 것이 궁금하다. 무엇을 말하는 걸까? 뭔가를 콕 집는 것 같은 느낌. 2022. 3. 9.
20대 대선 D-1, 구글트렌드 20대 대선 D-1 22일간의 선거 운동 기간이 8일 자정으로 끝나갑니다. 선거일 6일 전부터는 여론조사 결과 발표가 금지됐습니다. 금지된 기간 동안 구글 트렌드를 매일 올렸습니다. 자정 전후에. 3월 3일(D-6) 구글트렌드를 읽다, 3월 3일 3월 3일 트렌드 오늘. 참 많은 변화를 겪다. 하루를 구글 트렌드로 읽자. 3월 3일 하루 새벽 윤,안 단일화 합의 이후 오후 4시까지 윤의 우세가 확실하다. 특히 단일화를 발표하는 그 시각을 앞뒤로 easyfly.tistory.com 3월 4일(D-5) 20대 대선 D-5 구글트렌드 읽기 20대 대선 D-5 3월 4일과 5일은 사전투표일이다. 사전투표란 별다른 신고 없이 본 선거일 이전에 투표하는 제도다. 이 '사전 투표' 제도는 2000년 미국에서 실시된 .. 2022. 3. 8.
20대 대선 D-2, 구글트렌드는 어떻게 나타날까? 20대 대선 D-2 20대 대선 D-6인 3월 3일부터 '구글트렌드 읽기'를 시작했습니다. 이제 남은 날은 오늘을 빼면 하루 남았군요. 대통령제 국가에서 대통령은 '국가의 머슴'을 뽑는다는 명분이 있습니다만, 사실은 '임시직 왕'을 뽑는 셈입니다. '머슴처럼 선거 운동하고, 왕처럼 군림하는 대통령'을 뽑는 일이니, 이리저리 따져보고 선택하게 됩니다. 그런데 왠 구글트렌드? 우후죽순격으로 올라오는 여론조사의 상반된 결과와 말발깨나 날리는 종편 인사들의 이리저리 놀리는 말들이 의도적인게 많아, 구글에서 운영하는 트렌드를 돌려본 것입니다. 트렌드 결과도 아래에서 형성되는 '웹 검색'과 위에서 형성되는 '뉴스 검색'의 트렌드가 달랐습니다. 7일 역시 웹 검색과 뉴스 검색은 갈렸습니다. 정도의 차이는 줄었지만 웹.. 2022. 3. 8.