본문 바로가기

컴퓨터 활용/통계와 데이터과학22

Kaggle의 "House Prices - Advanced Regression Techniques" 경진대회 Kaggle의 "House Prices - Advanced Regression Techniques" 경진대회Kaggle의 "House Prices - Advanced Regression Techniques" 경진대회의 페이지입니다. 이 경진대회는 주택 판매 가격을 예측하는 과제를 다루고 있으며, 특징 공학(Feature Engineering), 랜덤 포레스트(RF), 그리고 그레디언트 부스팅(Gradient Boosting) 등의 기법을 연습할 수 있는 대회입니다.경진대회 페이지에서는 데이터셋을 다운로드하고 코드를 작성하여 제출할 수 있으며, 다른 참가자들과 토론하고, 리더보드를 통해 자신의 순위를 확인할 수 있습니다.데이터셋 구성:train.csv: 학습용 데이터셋 (훈련 세트)으로, 모델을 학습시키는.. 2024. 10. 20.
[Kaggle] Kaggle의 경진대회(Competitions) Kaggle의 경진대회(Competitions)Kaggle의 경진대회(Competitions)는 데이터 과학자들이 실제 문제를 해결하며 경쟁하는 플랫폼입니다. 다양한 경진대회는 데이터 분석, 머신러닝, 인공지능 관련 기술을 연마하고 응용할 수 있는 기회를 제공합니다. Kaggle 경진대회는 초보자부터 전문가까지 모두에게 참여 기회를 제공하며, 경진대회를 통해 데이터 과학 커리어를 시작하거나 발전시키는 데 큰 도움이 됩니다. 여기서는 경진대회의 구조, 종류, 참여 방법, 평가 방식 등을 자세히 설명하겠습니다.1. 경진대회의 구조Kaggle 경진대회는 기본적으로 기업이나 기관이 제시한 문제를 참가자들이 해결하는 방식으로 진행됩니다. 주어진 데이터에 기반하여 모델을 개발하고, 그 모델의 성능을 평가받는 것이 .. 2024. 10. 19.
데이터 과학자와 머신러닝 엔지니어들 플랫폼, Kaggle 데이터 과학자와 머신러닝 엔지니어들 플랫폼, KaggleKaggle은 데이터 과학자와 머신러닝 엔지니어들이 모여 데이터를 분석하고 모델링을 수행하는 온라인 플랫폼입니다. 이곳에서는 데이터 과학 경진대회, 데이터 세트 제공, 코드 공유 등의 기능을 통해 학습과 협업이 이루어집니다. Kaggle은 전 세계 커뮤니티가 참여하여 지식을 공유하고 실제 문제 해결 경험을 쌓을 수 있는 환경을 제공합니다.캐글의 주요 기능, 경진대회Kaggle의 핵심은 경진대회입니다. 기업과 기관이 제시하는 문제를 해결하는 과정에서 참가자들은 머신러닝 모델을 구축하고 성능을 비교하게 됩니다. 이를 통해 자신의 기술을 시험하고 경쟁할 기회를 얻습니다. 상위 입상자는 상금 또는 경력 기회를 제공받기도 하며, 이는 경력 개발에 유리한 요소.. 2024. 10. 19.
상점 신용카드 매출 예측, 데이터 전처리 데이터 전처리 데이터를 본격적으로 처리하기 이전에 데이터를 정제하는 과정입니다. 원 자료에는 데이터를 효과적으로 처리하기 곤란한 형태의 칼럼이나 결측치가 많아 결과를 왜곡할 수 있는 요소가 있습니다. 이런 것들을 선별하여 본 처리에 앞서 데이터 처리를 하는 것을 말합니다. 데이터 전처리는 탐색적 데이터 분석 과정을 먼저 진행하고 뒤에 처리하는 경우도 있고 그 반대의 경우도 있습니다. 대부분의 경우는 두 과정이 서로 앞서거니 뒤서거니 애자일 방식으로 진행되어야 하지 싶어요. 탐색을 통해 데이터의 특성이나 결측을 알아낼 수 있고 전처리를 하면서도 탐색은 가능하기 때문입니다. Colab 환경 조성 파이썬 버전 확인 현재 디렉토리 확인 드라이브 마운트 작업 디렉토리로 이동 노이즈 제거 데이터에서 노이즈는 이상치.. 2022. 4. 29.
아나콘다 가상환경 구축, 데이콘 경진대회 1등 솔루션 Ch04 아나콘다 가상환경 구축 아나콘다 설치 아나콘다 홈페이지에서 설치 파일을 내려받아 설치합니다. 설치 후에 아나콘다 네비게이터를 실행하면 다음과 같은 아나콘다로 할 수 있는 각종 툴들이 나타납니다. 가상환경을 구축하기 위해서 'Powershell Prompt'를 엽니다. 가상환경 구축 아나콘다 프롬프트를 통해 프로젝트를 진행할 가상환경을 구축합니다. 아나콘다 프롬프트를 열고 'store_amount_prediction'이라는 이름이 가상환경을 생성합니다. Python은 3.7버전으로 설정합니다. 명령어는 아래와 같습니다. >conda create -n store_amount_prediction python=3.7 구축된 가상환경을 활성화합니다. >conda activate store_amount_predic.. 2022. 4. 8.
세미나 자료, 4월 8일 상점 신용카드 매출 세미나 파이썬 코딩에서는 들여 쓰기가 매우 중요하군요. 그 한 줄, 들여 쓰기 착오가 큰 차이를 가져왔네요. 올바른 함수 함수 들여쓰기 착오 문제는 함수였습니다. '이중 반복문'에서 removed_data를 모으는 조건문에 문제가 있었습니다. for문에 포함될 과정이 조건문에 들어 있었네요. 불필요한 과정이 조건화되어 나타나는 오류였습니다. 오류 수정 후 이 과정에서 소요되는 시간은 시스템에 많이 제한을 받습니다. '아나콘다'로 수행했을 때도 비슷한 시간이었지만 시스템 사양이 떨어지는 노트북에서는 시간이 많이 소요됐습니다. 코랩에서는 비교적 비슷한 시간이었습니다. 10분 내외 시간에 작업은 끝났습니다. 2022. 4. 6.
Monkey 데이터에 KingKong 한 마리가 들어왔다 어떤 통계의 허와 실 어느 신문 기사다. 시도교육감 재산 공개에서 평균 3.5억이 증가했다는 자극적 기사다. 교육감들 재산이 1년만에 평균 3.5억이 늘 수 있나 궁금했다. 알고보니 원숭이 통계를 보여준다면서 킹콩 한 마리를 끼워 넣은 셈이다. 대구 강은희 교육감의 재산이 1년에 42억 늘었으니, 한 사람의 이상 통계치가 교육감 재산 결과를 왜곡시킨 것이다. 그 내용을 뻔히 알 수 있는 기자가 기사 꼭지를 저따위로 잡았고, '기사내용 요약'에 교육감 재산이 1년만에 평균 3.5억이 늘었다는 얼토당토 않은 진술을 한 것이다. 오호통재라! 중학교 교육만 제대로 받았어도 상식적으로 알 수 있는 내용을 정론을 펼쳐야 할 언론사 기자가 이런 식으로 보도를 하다니. 한심하다. 원숭이 데이터, 킹콩 데이터 등의 비유.. 2022. 4. 2.
새 권력의 심장부를 구글트렌드로 읽다 새 권력의 심장 대선이 끝났다. 구글트렌드의 웹 검색에 앞섰던 이재명이 낙선하고, 뉴스 검색과 유튜브 검색에서 앞섰던 윤석열이 차기 대통령으로 당선됐다. '국민의힘'의 승리로 새권력이 등장했다. 당선자를 제외하고 영향력이 크다싶은 다섯 사람을 구글트렌드로 읽었다. 웹 검색, 뉴스 검색, 유튜브 검색. 이렇게 세가지 트렌드를 비교해 보자. 웹 검색 구글트렌드 인수위원장을 맡은 안철수가 단연 앞선다. 그 뒤를 이준석 당대표. 그리고 장제원, 원희룡, 권성동이 뒤를 잇는다. 뉴스 검색 구글트렌드 뉴스 검색 트렌드는 안철수와 이준석이 비슷하다. 인수위원장과 당대표가 비슷한 비중으로 뉴스에서 다뤄지지 싶다. 유튜브 검색 구글트렌드 유튜브 검색도 웹 검색과 마찬가지로 인수위원장 안철수가 우세를 보인다. 특히 인수위.. 2022. 3. 19.
어려워진 20대 대선 출구조사 공동출구조사 지상파 방송 3사 KBS·MBC·SBS가 20대 대통령선거 출구조사를 실시해 오후 7시 30분에 결과를 공개한다. 오후 6시가 아니고, 오후 7시 30분인 것은 코비드 상황에서 빚어진 확진자와 격리자 투표가 6시 이후에 진행되기 때문이다. JTBC도 별도의 출구조사를 해 같은 시간에 발표한다. 출구조사 방법 조사원이 투표소 50m 밖에서 대기하고 있다가 투표를 마친 유권자에게 어느 후보를 선택했는지 조사하는 방식이다. 하지만 공직선거법상 사전투표에서의 출구조사는 금지되어 있다. 본투표 당일 오후 6시부터 이뤄지는 확진자와 격리자 투표도 출구조사에 반영되지 않는다. 절반의 선택으로 모수를 추정할 수 밖에 없는 상황이다. 20대 대선의 출구조사의 한계 4일과 5일 실시된 사전투표율은 사상 최대인.. 2022. 3. 9.