상세정보
미리보기
실무 예제로 배우는 데이터 공학
- 저자
- 폴 크리커드 저/류광 역
- 출판사
- 제이펍
- 출판일
- 2021-12-15
- 등록일
- 2023-11-10
- 파일포맷
- PDF
- 파일크기
- 50MB
- 공급사
- YES24
- 지원기기
-
PC
PHONE
TABLET
웹뷰어
프로그램 수동설치
뷰어프로그램 설치 안내
책소개
실시간 데이터 파이프라인을 구축, 모니터링 및 관리하고,Apache 프로젝트를 사용하여 효율적인 데이터 엔지니어링 인프라를 생성한다!이 책을 다 읽고 나면 파이썬과 오픈소스 프로젝트들을 이용한 데이터 공학이 어떤 것인지 확실하게 이해하게 될 것이며, 데이터를 추출하고, 그 품질을 점검하고, 용도에 맞게 적절히 변환하는 데이터 파이프라인을 구축해 낼 수 있는 자신감이 생길 것이다.
저자소개
폴 크리커드는 《Leaflet.js Essentials: Community Experience Distilled》(2014, Packt)의 저자이자 《Mastering Geospatial Analysis with Python》(2018, Packt)의 공동 저자이며, 미국 뉴멕시코 주 앨버커키에 소재한 제2지방검찰청의 최고 정보 책임자(CIO)로 있다.
정치학 석사 학위 소지자이면서 공동체 및 지역 개발 경력을 지닌 저자는 사회과학 이론과 기법을 기술 프로젝트와 접목하는 전문가이기도 하다. ‘New Mexico Big Data and Analytics Summit’과 ‘Experience IT NM Conference’에 참여했고, ‘New Mexico Big Data Working Group’, ‘Sandia National Labs’, ‘New Mexico Geographic Information Council’에서 강연자로 나서기도 했다.
목차
PART I 데이터 파이프라인 구축: 추출, 변환, 적재 1CHAPTER 1 데이터 공학이란? 31.1 데이터 공학자가 하는 일 3 1.2 데이터 공학 대 데이터 과학 71.3 데이터 공학 도구들 7 1.4 요약 13CHAPTER 2 데이터 공학 기반구조 구축 152.1 아파치 NiFi의 설치와 설정 162.2 아파치 에어플로의 설치와 설정 242.3 일래스틱서치의 설치와 설정 302.4 키바나의 설치와 설정 312.5 PostgreSQL의 설치와 설정 362.6 pgAdmin 4 설치 372.6.1 pgAdmin 4 둘러보기 382.7 요약CHAPTER 3 파일 읽고 쓰기 413.1 파이썬으로 파일 쓰고 읽기 413.2 아파치 에어플로 데이터 파이프라인 구축 513.3 NiFi 처리기를 이용한 파일 다루기 573.4 요약 68CHAPTER 4 데이터베이스 다루기 694.1 파이썬을 이용한 관계형 데이터 삽입 및 추출 704.2 파이썬을 이용한 NoSQL 데이터베이스 데이터 삽입 및 추출 794.3 데이터베이스를 위한 아파치 에어플로 데이터 파이프라인 구축 874.4 NiFi 처리기를 이용한 데이터베이스 처리 914.4.1 PostgreSQL에서 데이터 추출 92 / 4.4.2 데이터 파이프라인 실행 954.5 요약 96CHAPTER 5 데이터의 정제, 변환, 증강 995.1 파이썬을 이용한 탐색적 데이터 분석 1005.2 pandas를 이용한 공통적인 데이터 문제점 처리 1095.3 에어플로를 이용한 데이터 정제 1195.4 요약 122CHAPTER 6 실습 프로젝트: 311 데이터 파이프라인 만들기 1236.1 데이터 파이프라인 구축 1236.2 키바나 대시보드 만들기 1326.3 요약 142PART II 실무 환경 데이터 파이프라인 배치 145CHAPTER 7 실무용 데이터 파이프라인의 특징 1477.1 데이터의 스테이징과 검증 1487.2 멱등적 데이터 파이프라인 구축 1687.3 원자적 데이터 파이프라인 구축 1697.4 요약 171CHAPTER 8 NiFi 레지스트리를 이용한 버전 관리 1738.1 NiFi 레지스트리의 설치과 설정 1738.2 NiFi에서 레지스트리 사용 1768.3 데이터 파이프라인 버전 관리 1788.4 NiFi 레지스트리에서 git-persistence 활용 1848.5 요약 188CHAPTER 9 데이터 파이프라인 모니터링 1899.1 NiFi GUI를 이용한 데이터 파이프라인 모니터링 1899.2 NiFi 처리기를 이용한 데이터 파이프라인 모니터링 1989.3 파이썬과 REST API를 이용한 데이터 파이프라인 모니터링 2019.4 요약 206CHAPTER 10 데이터 파이프라인 배치 20710.1 실무 배치를 위한 데이터 파이프라인 마무리 작업 20710.2 NiFi 변수 레지스트리 활용 21410.3 데이터 파이프라인 배치 21710.4 요약 222CHAPTER 11 실습 프로젝트: 실무용 데이터 파이프라인 구축 22311.1 검사 환경과 실무 환경 구축 22311.2 실무용 데이터 파이프라인 구축 22711.3 데이터 파이프라인을 실무 환경에 배치 23811.4 요약 238PART III 일괄 처리를 넘어서: 실시간 데이터 파이프라인 구축 241CHAPTER 12 아파치 카프카 클러스터 구축 24312.1 주키퍼 및 카프카 클러스터 생성 24312.2 카프카 클러스터 시험 운영 24812.3 요약 250CHAPTER 13 카프카를 이용한 데이터 스트리밍 25113.1 로깅의 기초 25113.2 카프카의 로그 활용 방식 25313.3 카프카와 NiFi를 이용한 데이터 파이프라인 구축 25713.4 스트림 처리와 일괄 처리의 차이 26413.5 파이썬을 이용한 메시지 생산 및 소비 26613.6 요약 270CHAPTER 14 아파치 스파크를 이용한 데이터 처리 27114.1 아파치 스파크의 설치와 설정 27114.2 PySpark의 설치와 설정 27514.3 PySpark를 이용한 데이터 처리 27714.4 요약 283CHAPTER 15 MiNiFi, 카프카, 스파크를 이용한 실시간 엣지 데이터 처리 28515.1 MiNiFi 설치 및 설정 28515.2 MiNiFi 데이터 파이프라인 구축 및 연동 28815.3 요약 293APPENDIX A NiFi 클러스터 구축 295