상세정보
미리보기
스파크를 이용한 자연어 처리
- 저자
- 앨릭스 토머스 저/이창현 역
- 출판사
- 한빛미디어
- 출판일
- 2021-08-30
- 등록일
- 2021-11-18
- 파일포맷
- PDF
- 파일크기
- 8MB
- 공급사
- YES24
- 지원기기
-
PC
웹뷰어
프로그램 수동설치
뷰어프로그램 설치 안내
책소개
Spark NLP로 구현하는 자연어 처리 애플리케이션 </br></br>아파치 스파크 위에 구축된 자연어 처리 라이브러리인 Spark NLP는 정확성과 빠른 속도, 넓은 확장성을 지원한다. 이 책은 Spark NLP로 효율적인 애플리케이션을 설계하고 제작하는 방법을 소개한다. 구체적인 예제와 친절한 설명을 통해 기본적인 언어학과 문자 체계부터 감성 분석, 검색 엔진 구축까지 Spark NLP를 사용하는 데 필요한 모든 것을 다룬다. 또한 NLP 애플리케이션 개발 시 매우 중요한 성능 문제도 살펴보며 실무에 응용하기 전 꼭 알아야 할 내용을 빠짐없이 담았다. 예제를 따라 하며 딥러닝과 Spark NLP 라이브러리로 자신만의 확장 가능한 NLP 애플리케이션을 만들어보자.</br>
저자소개
와이즈큐브(Wisecube)의 데이터 과학자다. 자연어 처리와 머신러닝에 임상 데이터, 신원 데이터, 고용주 및 구직자 데이터를 비롯해 현재는 생화학 데이터까지 사용하고 있다. 아파치 스파크 0.9 버전부터 UIMA와 OpenNLP를 포함한 NLP 라이브러리와 프레임워크로 작업해왔다.
목차
[PART I 기초]</br></br>CHAPTER 1 시작하기</br>1.1 Spark NLP와 자연어 처리</br>1.2 기타 도구</br>1.3 환경 설정</br>1.4 아파치 스파크에 익숙해지기</br>1.5 Spark NLP를 사용한 Hello World</br></br>CHAPTER 2 자연어 처리 기초</br>2.1 자연어 처리 정의</br>2.2 언어학</br>2.3 사회언어학</br>2.4 화용론</br>2.5 문자</br>2.6 인코딩</br>2.7 연습 문제: 토큰화</br>2.8 참고 자료</br></br>CHAPTER 3 아파치 스파크의 NLP 라이브러리</br>3.1 병렬처리, 동시성과 분산 컴퓨팅</br>3.2 아파치 스파크의 아키텍처</br>3.3 스파크 SQL과 Spark MLlib</br>3.4 NLP 라이브러리</br>3.5 Spark NLP</br>3.6 연습 문제: 토픽 모델 구축</br>3.7 참고 자료</br></br>CHAPTER 4 딥러닝 기초</br>4.1 경사 하강법</br>4.2 역전파</br>4.3 합성곱 신경망</br>4.4 순환 신경망</br>4.5 연습 문제 1</br>4.6 연습 문제 2</br>4.7 참고 자료</br></br>[PART II 빌딩 블록]</br></br>CHAPTER 5 단어 처리</br>5.1 토큰화</br>5.2 어휘 감소</br>5.3 단어 가방</br>5.4 CountVectorizer</br>5.5 n-gram</br>5.6 시각화: 단어 및 문서 분산</br>5.7 연습 문제</br>5.8 참고 자료</br></br>CHAPTER 6 정보 검색</br>6.1 역 인덱스</br>6.2 벡터 공간 모델</br>6.3 연습 문제</br>6.4 참고 자료</br></br>CHAPTER 7 분류와 회귀</br>7.1 BoW 기능</br>7.2 정규식 특성</br>7.3 특성 선택</br>7.4 모델링</br>7.5 반복</br>7.6 연습 문제</br></br>CHAPTER 8 케라스를 사용한 시퀀스 모델링</br>8.1 문장 분할</br>8.2 섹션 분할</br>8.3 품사 태깅</br>8.4 조건부 무작위장</br>8.5 청킹 및 구문 분석</br>8.6 언어 모델</br>8.7 순환 신경망</br>8.8 연습 문제: 문자 n-gram</br>8.9 연습 문제: 단어 언어 모델</br>8.10 참고 자료</br></br>CHAPTER 9 정보 추출</br>9.1 개체명 인식</br>9.2 상호 참조 해결</br>9.3 어서션 상태 감지</br>9.4 관계 추출</br>9.5 마치며</br>9.6 연습 문제</br></br>CHAPTER 10 주제 모델링</br>10.1 k-평균</br>10.2 잠재 의미 분석</br>10.3 음수 미포함 행렬 분해</br>10.4 잠재 디리클레 할당</br>10.5 연습 문제</br></br>CHAPTER 11 단어 임베딩</br>11.1 Word2Vec</br>11.2 글로브</br>11.3 패스트텍스트</br>11.4 변환자</br>11.5 ELMo, BERT와 XLNet</br>11.6 doc2vec</br>11.7 연습 문제</br></br>[PART III 애플리케이션]</br></br>CHAPTER 12 감성 분석과 감지</br>12.1 문제 진술과 제약</br>12.2 프로젝트 계획</br>12.3 솔루션 설계</br>12.4 솔루션 구현</br>12.5 솔루션 테스트와 측정</br>12.6 검토</br>12.7 마치며</br></br>CHAPTER 13 지식 베이스 구축</br>13.1 문제 진술과 제약</br>13.2 프로젝트 계획</br>13.3 솔루션 설계</br>13.4 솔루션 구현</br>13.5 솔루션 테스트와 측정</br>13.6 검토</br>13.7 마치며</br></br>CHAPTER 14 검색엔진</br>14.1 문제 진술과 제약 조건</br>14.2 프로젝트 계획</br>14.3 솔루션 설계</br>14.4 솔루션 구현</br>14.5 솔루션 테스트 및 측정</br>14.6 검토</br>14.7 마치며</br></br>CHAPTER 15 챗봇</br>15.1 문제 진술 및 제약</br>15.2 프로젝트 계획</br>15.3 솔루션 설계</br>15.4 솔루션 구현</br>15.5 솔루션 테스트 및 측정</br>15.6 검토</br>15.7 마치며</br></br>CHAPTER 16 객체 문자 인식</br>16.1 OCR 작업의 종류</br>16.2 문제 진술 및 제약</br>16.3 프로젝트 계획</br>16.4 솔루션 구현</br>16.5 솔루션 테스트 및 측정</br>16.6 모델 중심 지표</br>16.7 검토</br>16.8 마치며</br></br>[PART IV NLP 시스템 구축]</br></br>CHAPTER 17 다국어 지원</br>17.1 언어 유형</br>17.2 시나리오: 학술 논문 분류</br>17.3 다양한 언어의 텍스트 처리</br>17.4 전이 학습과 다국어 딥러닝</br>17.5 언어 간 검색</br>17.6 체크리스트</br>17.7 마치며</br></br>CHAPTER 18 수동 레이블링</br>18.1 가이드라인</br>18.2 시나리오: 학술 논문 분류</br>18.3 레이블러 간 동의</br>18.4 반복 레이블링</br>18.5 텍스트 레이블링</br>18.6 체크리스트</br>18.7 마치며</br></br>CHAPTER 19 NLP 애플리케이션 제작</br>19.1 Spark NLP 모델 캐시</br>19.2 Spark NLP와 텐서플로 통합</br>19.3 체크리스트</br>19.4 마치며</br>