상세정보
미리보기
파이썬 라이브러리를 활용한 데이터 분석 (2판)
- 저자
- 웨스 맥키니 저/김영근 역
- 출판사
- 한빛미디어
- 출판일
- 2019-06-30
- 등록일
- 2020-11-26
- 파일포맷
- PDF
- 파일크기
- 9MB
- 공급사
- YES24
- 지원기기
-
PC
PHONE
TABLET
웹뷰어
프로그램 수동설치
뷰어프로그램 설치 안내
책소개
빅데이터 분석에 관한 가장 완벽한 교재! 이 책은 NumPy, pandas, matplotlib, IPython, Jupyter 등 다양한 파이썬 라이브러리를 사용해서 효과적으로 데이터를 분석하는 방법을 알려준다. pandas의 새로운 기능뿐만 아니라 메모리 사용량을 줄이고 성능을 개선하는 고급 사용법까지 다룬다. 또한 모델링 도구인 statsmodels와 scikit-learn 라이브러리도 소개한다. 연대별 이름 통계 자료, 미 대선 데이터베이스 자료 등 실사례로 따라 하다 보면 어느덧 여러분도 데이터에 알맞게 접근하고 효과적으로 분석하는 전문가가 될 것이다.
저자소개
뉴욕에서 활동하는 소프트웨어 개발자이자 기업가다. 2007년 MIT 수학과 학부 과정을 마치고 코네티컷 주 그린위치에 있는 AQR 캐피탈 매니지먼트에서 금융 분석가로 근무했다. 복잡하고 느린 데이터 분석 툴에 실망하여 2008년 파이썬을 배우면서 pandas 프로젝트를 시작했다. 파이썬 데이터 커뮤니티의 활발한 일원이며 데이터 분석, 금융, 통계 계산 애플리케이션에서 파이썬 사용을 독려하고 있다.
창업한 DataPad가 2014년 클라우데라에 인수된 이후 빅데이터 기술에 집중했으며 아파치 소프트웨어 재단의 프로젝트인 아파치 애로우와 아파치 파케이의 Project Management Committee(프로젝트 관리 위원)로 합류했다. 2016년에는 뉴욕에 위치한 투시그마 투자사로 옮겨 오픈소스를 활용해 빠르고 쉬운 데이터 분석 환경을 만드는 데 노력을 기울이고 있다.
목차
CHAPTER 1 시작하기 전에__1.1 이 책에서 다루는 내용__1.2 왜 데이터 분석에 파이썬을 사용하나__1.3 필수 파이썬 라이브러리__1.4 설치 및 설정 __1.5 커뮤니티와 컨퍼런스__1.6 이 책을 살펴보는 방법CHAPTER 2 파이썬 언어의 기본, IPython, 주피터 노트북__2.1 파이썬 인터프리터 __2.2 IPython 기초__2.3 파이썬 기초 CHAPTER 3 내장 자료구조, 함수, 파일__3.1 자료구조와 순차 자료형 __3.2 함수__3.3 파일과 운영체제 __3.4 마치며CHAPTER 4 NumPy 기본: 배열과 벡터 연산__4.1 NumPy ndarray: 다차원 배열 객체 __4.2 유니버설 함수: 배열의 각 원소를 빠르게 처리하는 함수 __4.3 배열을 이용한 배열지향 프로그래밍__4.4 배열 데이터의 파일 입출력__4.5 선형대수__4.6 난수 생성 __4.7 계단 오르내리기 예제__4.8 마치며 CHAPTER 5 pandas 시작하기__5.1 pandas 자료구조 소개__5.2 핵심 기능__5.3 기술 통계 계산과 요약__5.4 마치며 CHAPTER 6 데이터 로딩과 저장, 파일 형식__6.1 텍스트 파일에서 데이터를 읽고 쓰는 법__6.2 이진 데이터 형식__6.3 웹 API와 함께 사용하기 __6.4 데이터베이스와 함께 사용하기__6.5 마치며 CHAPTER 7 데이터 정제 및 준비__7.1 누락된 데이터 처리하기 __7.2 데이터 변형 __7.3 문자열 다루기 __7.4 마치며 CHAPTER 8 데이터 준비하기: 조인, 병합, 변형__8.1 계층적 색인__8.2 데이터 합치기 __8.3 재형성과 피벗 __8.4 마치며 CHAPTER 9 그래프와 시각화__9.1 matplotlib API 간략하게 살펴보기__9.2 pandas에서 seaborn으로 그래프 그리기__9.3 다른 파이썬 시각화 도구 __9.4 마치며 CHAPTER 10 데이터 집계와 그룹 연산__10.1 GroupBy 메카닉__10.2 데이터 집계 __10.3 Apply: 일반적인 분리-적용-병합__10.4 피벗테이블과 교차일람표 __10.5 마치며 CHAPTER 11 시계열__11.1 날짜, 시간 자료형, 도구 __11.2 시계열 기초 __11.3 날짜 범위, 빈도, 이동 __11.4 시간대 다루기 __11.5 기간과 기간 연산__11.6 리샘플링과 빈도 변환 __11.7 이동창 함수 __11.8 마치며 CHAPTER 12 고급 pandas__12.1 Categorical 데이터__12.2 고급 GroupBy 사용__12.3 메서드 연결 기법__12.4 마치며 CHAPTER 13 파이썬 모델링 라이브러리__13.1 pandas와 모델 코드의 인터페이스 __13.2 Patsy를 이용해서 모델 생성하기 __13.3 statsmodels 소개 __13.4 scikit-learn 소개 __13.5 더 공부하기 CHAPTER 14 데이터 분석 예제__14.1 Bit.ly의 1.USA.gov 데이터 __14.2 MovieLens의 영화 평점 데이터 __14.3 신생아 이름 __14.4 미국농무부 영양소 정보 __14.5 2012년 연방선거관리위원회 데이터베이스 __14.6 마치며 APPENDIX A 고급 NumPy__A.1 ndarray 객체 구조 __A.2 고급 배열 조작 기법__A.3 브로드캐스팅 __A.4 고급 ufunc 사용법 .__A.5 구조화된 배열과 레코드 배열 __A.6 정렬에 관하여 __A.7 umba를 이용하여 빠른 NumPy 함수 작성하기 __A.8 고급 배열 입출력 __A.9 성능 팁 APPENDIX B IPython 시스템 더 알아보기__B.1 명령어 히스토리 사용하기 __B.2 운영체제와 함께 사용하기 __B.3 소프트웨어 개발 도구 __B.4 IPython을 이용한 생산적인 코드 개발에 관한 팁 __B.5 IPython 고급 기능 __B.6 마치며