상세정보
미리보기
스파크 완벽 가이드
- 저자
- 빌 체임버스,마테이 자하리아 공저/우성한,이영호,강재원 공역
- 출판사
- 한빛미디어
- 출판일
- 2019-01-11
- 등록일
- 2021-11-18
- 파일포맷
- PDF
- 파일크기
- 0
- 공급사
- YES24
- 지원기기
-
PC
웹뷰어
프로그램 수동설치
뷰어프로그램 설치 안내
책소개
스파크 창시자가 알려주는 스파크 활용과 배포, 유지 보수의 모든 것 오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서이다. 스파크 사용법부터 배포, 유지 보수하는 방법까지 포괄적으로 익힐 수 있으며, 스파크 2의 개선점과 새로운 기능을 자세히 설명하고 있다. 구조화된 스파크 API의 특징과 공통 기능은 물론이고, 엔드 투 엔드 스트리밍 애플리케이션을 구축하는 새로운 고수준 API인 구조적 스트리밍을 살펴본다. 이 책을 읽으면 스파크를 모니터링, 튜닝, 디버깅하는 데 필요한 기본 지식을 습득할 수 있고 나아가 스파크의 확장 머신러닝 라이브러리인 MLlib을 사용하는 방법과 시나리오를 익힐 수 있다.
저자소개
2014년에 몇몇 연구 프로젝트에 스파크를 도입했습니다. 데이터브릭스에서 제품 관리를 맡고 있으며 사용자들이 다양한 아파치 스파크 애플리케이션을 개발할 수 있는 환경을 만들기 위해 노력하고 있습니다. 또한 정기적으로 스파크와 관련된 블로그를 작성하고 콘퍼런스 발표와 밋업에 참여하고 있습니다. UC버클리 대학교 정보대학원에서 정보 관리와 시스템 분야의 석사학위를 취득했습니다.
목차
[ Part 1 빅데이터와 스파크 간단히 살펴보기 ]CHAPTER 1 아파치 스파크란1.1 아파치 스파크의 철학1.2 스파크의 등장 배경1.3 스파크의 역사1.4 스파크의 현재와 미래1.5 스파크 실행하기1.6 정리CHAPTER 2 스파크 간단히 살펴보기2.1 스파크의 기본 아키텍처2.2 스파크의 다양한 언어 API2.3 스파크 API2.4 스파크 시작하기2.5 SparkSession2.6 DataFrame2.7 트랜스포메이션2.8 액션2.9 스파크 UI2.10 종합 예제2.11 정리CHAPTER 3 스파크 기능 둘러보기3.1 운영용 애플리케이션 실행하기3.2 Dataset: 타입 안정성을 제공하는 구조적 API3.3 구조적 스트리밍3.4 머신러닝과 고급 분석3.5 저수준 API3.6 SparkR3.7 스파크의 에코시스템과 패키지3.8 정리[ Part 2 구조적 API: DataFrame, SQL, Part 2Dataset ]CHAPTER 4 구조적 API 개요4.1 DataFrame과 Dataset4.2 스키마4.3 스파크의 구조적 데이터 타입 개요4.4 구조적 API의 실행 과정4.5 정리CHAPTER 5 구조적 API 기본 연산5.1 스키마5.2 컬럼과 표현식5.3 레코드와 로우5.4 DataFrame의 트랜스포메이션5.5 정리CHAPTER 6 다양한 데이터 타입 다루기6.1 API는 어디서 찾을까6.2 스파크 데이터 타입으로 변환하기6.3 불리언 데이터 타입 다루기6.4 수치형 데이터 타입 다루기6.5 문자열 데이터 타입 다루기6.6 날짜와 타임스탬프 데이터 타입 다루기6.7 null 값 다루기6.8 정렬하기6.9 복합 데이터 타입 다루기6.10 JSON 다루기6.11 사용자 정의 함수6.12 Hive UDF6.13 정리CHAPTER 7 집계 연산7.1 집계 함수7.2 그룹화7.3 윈도우 함수7.4 그룹화 셋7.5 사용자 정의 집계 함수7.6 정리CHAPTER 8 조인8.1 조인 표현식8.2 조인 타입8.3 내부 조인8.4 외부 조인8.5 왼쪽 외부 조인8.6 오른쪽 외부 조인8.7 왼쪽 세미 조인8.8 왼쪽 안티 조인8.9 자연 조인8.10 교차 조인(카테시안 조인)8.11 조인 사용 시 문제점8.12 스파크의 조인 수행 방식8.13 정리CHAPTER 9 데이터소스9.1 데이터소스 API의 구조9.2 CSV 파일9.3 JSON 파일9.4 파케이 파일9.5 ORC 파일9.6 SQL 데이터베이스9.7 텍스트 파일9.8 고급 I/O 개념9.9 정리CHAPTER 10 스파크 SQL10.1 SQL이란10.2 빅데이터와 SQL: 아파치 하이브10.3 빅데이터와 SQL: 스파크 SQL10.4 스파크 SQL 쿼리 실행 방법10.5 카탈로그10.6 테이블10.7 뷰10.8 데이터베이스10.9 select 구문10.10 고급 주제10.11 다양한 기능10.12 정리CHAPTER 11 Dataset11.1 Dataset을 사용할 시기11.2 Dataset 생성11.3 액션11.4 트랜스포메이션11.5 조인11.6 그룹화와 집계11.7 정리[ Part 3 저수준 API ]CHAPTER 12 RDD12.1 저수준 API란12.2 RDD 개요12.3 RDD 생성하기12.4 RDD 다루기12.5 트랜스포메이션12.6 액션12.7 파일 저장하기12.8 캐싱12.9 체크포인팅12.10 RDD를 시스템 명령으로 전송하기12.11 정리CHAPTER 13 RDD 고급 개념13.1 키-값 형태의 기초(키-값 형태의 RDD)13.2 집계13.3 cogroup13.4 조인13.5 파티션 제어하기13.6 사용자 정의 직렬화13.7 정리CHAPTER 14 분산형 공유 변수14.1 브로드캐스트 변수14.2 어큐뮬레이터14.3 정리[ Part 4 운영용 애플리케이션 ]CHAPTER 15 클러스터에서 스파크 실행하기15.1 스파크 애플리케이션의 아키텍처15.2 스파크 애플리케이션의 생애주기(스파크 외부)15.3 스파크 애플리케이션의 생애주기(스파크 내부)15.4 세부 실행 과정15.5 정리CHAPTER 16 스파크 애플리케이션 개발하기16.1 스파크 애플리케이션 작성하기16.2 스파크 애플리케이션 테스트16.3 개발 프로세스16.4 애플리케이션 시작하기16.5 애플리케이션 환경 설정하기16.6 정리CHAPTER 17 스파크 배포 환경17.1 스파크 애플리케이션 실행을 위한 클러스터 환경17.2 클러스터 매니저17.3 기타 고려사항17.4 정리CHAPTER 18 모니터링과 디버깅18.1 모니터링 범위18.2 모니터링 대상18.3 스파크 로그18.4 스파크 UI18.5 디버깅 및 스파크 응급 처치18.6 정리CHAPTER 19 성능 튜닝19.1 간접적인 성능 향상 기법19.2 직접적인 성능 향상 기법19.3 정리[ Part 5 스트리밍 ]CHAPTER 20 스트림 처리의 기초20.1 스트림 처리란20.2 스트림 처리의 핵심 설계 개념20.3 스파크의 스트리밍 API20.4 정리CHAPTER 21 구조적 스트리밍의 기초21.1 구조적 스트리밍의 기초21.2 핵심 개념21.3 구조적 스트리밍 활용21.4 스트림 트랜스포메이션21.5 입력과 출력21.6 스트리밍 Dataset API21.7 정리CHAPTER 22 이벤트 시간과 상태 기반 처리22.1 이벤트 시간 처리22.2 상태 기반 처리22.3 임의적인 상태 기반 처리22.4 이벤트 시간 처리의 기본22.5 이벤트 시간 윈도우22.6 스트림에서 중복 데이터 제거하기22.7 임의적인 상태 기반 처리22.8 정리CHAPTER 23 운영 환경에서의 구조적 스트리밍23.1 내고장성과 체크포인팅23.2 애플리케이션 변경하기23.3 메트릭과 모니터링23.4 알림23.5 스트리밍 리스너를 사용한 고급 모니터링23.6 정리[ Part 6 고급 분석과 머신러닝 ]CHAPTER 24 고급 분석과 머신러닝 개요24.1 고급 분석에 대한 짧은 입문서24.2 스파크의 고급 분석 툴킷24.3 고수준 MLlib의 개념24.4 MLlib 실제로 사용하기24.5 모델 배포 방식24.6 정리CHAPTER 25 데이터 전처리 및 피처 엔지니어링25.1 사용 목적에 따라 모델 서식 지정하기25.2 변환자25.3 전처리 추정자25.4 고수준 변환자25.5 연속형 특징 처리하기25.6 범주형 특징 처리하기25.7 텍스트 데이터 변환자25.8 특징 조작하기25.9 특징 선택25.10 고급 주제25.11 정리CHAPTER 26 분류26.1 활용 사례26.2 분류 유형26.3 MLlib의 분류 모델26.4 로지스틱 회귀26.5 의사결정트리26.6 랜덤 포레스트와 그래디언트 부스티드 트리26.7 나이브 베이즈26.8 분류와 자동 모델 튜닝을 위한 평가기26.9 세부 평가지표26.10 일대다 분류기26.11 다층 퍼셉트론26.12 정리CHAPTER 27 회귀27.1 활용 사례27.2 MLlib에서 제공하는 회귀 모델27.3 선형 회귀27.4 일반화 선형 회귀27.5 의사결정트리27.6 랜덤 포레스트와 그래디언트 부스티드 트리27.7 고급 방법론27.8 평가기와 모델 튜닝 자동화27.9 평가지표27.10 정리CHAPTER 28 추천28.1 활용 사례28.2 교차최소제곱 알고리즘을 사용하여 협업 필터링 구현하기28.3 추천을 위한 평가기28.4 성과 평가지표28.5 빈발 패턴 마이닝28.6 정리CHAPTER 29 비지도 학습29.1 활용 사례29.2 모델 확장성29.3 k-평균29.4 이분법 k-평균29.5 가우시안 혼합 모델29.6 잠재 디리클레 할당29.7 정리CHAPTER 30 그래프 분석30.1 그래프 작성하기30.2 그래프 쿼리하기30.3 모티프 찾기30.4 그래프 알고리즘30.5 정리CHAPTER 31 딥러닝31.1 딥러닝이란31.2 스파크에서 딥러닝을 사용하는 방법31.3 딥러닝 라이브러리31.4 딥러닝 파이프라인을 사용한 간단한 예제31.5 정리[ Part 7 에코시스템 ]CHAPTER 32 언어별 특성: 파이썬(PySpark)과 R(SparkR, sparklyr)32.1 PySpark32.2 R로 스파크 사용하기32.3 정리CHAPTER 33 에코시스템과 커뮤니티33.1 스파크 패키지33.2 커뮤니티33.3 정리부록 A 스파크 설치 및 실행 부록 B 더블린 원정대: 스파크 서밋 2017 더블린 참관기