데이터 전처리 대전
실무 데이터 분석과 전처리 구현에 필요한
구체적인 기술을 제시하는 활용 가이드
데이터 분석의 품질에 큰 영향을 미치는 데이터 전처리는 매우 중요한 작업이다. 전처리 공정을 전체적으로 이해하려면 프로그래밍 언어에 관한 이해뿐만 아니라 통계학이나 머신러닝에 관한 기반 지식이 필요하지만 이를 포괄적으로 설명하는 책은 없었다.
이 책은 저자의 생생한 데이터 분석 실무 경험을 바탕으로 실용적인 전처리 기술을 설명한다. 프로그래밍 언어를 이용해 간단한 개발을 할 수 있는 사람이라면 무리 없이 이해할 수 있도록 쉽게 설명한다. 초급 데이터 과학자뿐만 아니라 데이터 분석 업무를 익히고 싶은 시스템 엔지니어에게도 강력히 추천한다.
시스템 개발업체 연구원과 웹 계열 회사의 데이터 과학자를 거쳐 현재는 디지털 의료 스타트업의 CTO로 역임 중이다. 양자 어닐링 컴퓨터의 검증에 개인 사업자로 참여하고 있다. 제조업, 소매업, 금융업, 운수업, 레저 산업, 웹 등 다양한 업종의 데이터 분석을 경험했다. 취미로 마리오 AI를 개발한다.
[1부 전처리 입문]
1장 전처리 개요
__1.1 데이터
__1.2 전처리의 역할
__1.3 전처리의 흐름
__1.4 세 가지 프로그래밍 언어
__1.5 패키지/라이브러리
__1.6 데이터셋
__1.7 데이터 읽기
[2부 데이터 구조 전처리]
2장 추출
__2.1 데이터 열을 지정한 추출
__2.2 조건에 따른 데이터 행 추출
__2.3 데이터 값을 고려하지 않는 샘플링
__2.4 집약 ID에 기반한 샘플링
3장 집약
__3.1 데이터와 종류의 개수 산출
__3.2 합곗값 계산
__3.3 최댓값, 최솟값, 대푯값 산출
__3.4 분포 계산
__3.5 최빈값 계산
__3.6 순위 계산
4장 결합
__4.1 마스터 테이블에서 정보 얻기
__4.2 조건에 따라 결합할 마스터 테이블 변경하기
__4.3 과거 데이터에서 정보 얻기
__4.4 상호 결합
5장 분할
__5.1 모델 검증을 위한 데이터 레코드 분할
__5.2 모델 검증을 위한 시간 데이터 분할
6장 생성
__6.1 언더샘플링으로 데이터 불균형 조정하기
__6.2 오버샘플링으로 데이터 불균형 조정하기
7장 전개
__7.1 가로 데이터로 변환
__7.2 희소 행렬로의 변환
[3부 데이터 내용 전처리]
8장 수치형
__8.1 수치형 데이터로 변환
__8.2 대수화를 이용한 비선형 변화
__8.3 범주화를 이용한 비선형 변화
__8.4 정규화
__8.5 예욋값 제거
__8.6 주성분 분석을 이용한 차원 압축
__8.7 수치의 보완
9장 범주형
__9.1 범주형으로 변환
__9.2 더미 변수화
__9.3 범줏값의 집약
__9.4 범줏값의 조합
__9.5 범주형의 수치화
__9.6 범주형의 보완
10장 일시형
__10.1 일시형과 날짜형으로 변환
__10.2 연, 월, 일, 시각, 분, 초, 요일로 변환
__10.3 일시의 차이로 변환
__10.4 일시형의 증감
__10.5 계절로 변환
__10.6 시간대로 변환
__10.7 평일과 휴일로 변환
11장 문자형
__11.1 형태소 분석을 이용한 분해
__11.2 단어의 집합 데이터로 변환
__11.3 TF-IDF로 단어의 중요도 조정
12장 위치 정보형
__12.1 한국 측지계를 세계 측지계로 변환
__12.2 두 지점 간 거리와 방향 계산
[4부 실천 전처리]
13장 연습 문제
__13.1 집계 분석 전처리
__13.2 추천 전처리
__13.3 예측 모델링 전처리
부록 A 예제 환경 구성하기
__A.1 SQL 환경 준비하기
__A.2 R 환경 준비하기
__A.3 파이썬 환경 준비하기
모토하시 도모미쓰 저자가 집필한 등록된 컨텐츠가 없습니다.