책소개
생성형 AI, 이론을 넘어 실전에서 완성하다허깅페이스 코어 개발자와 함께 한 권으로 마스터하는 GenAI 실무 구현 허깅페이스 코어 개발한 저자가 직접 최신 기술을 직접 구현하며 이론과 실무의 간극과 기술 갈증을 해소해 준다. 프로프트 엔지니어링을 넘어 트랜스포머와 확산 모델의 내부 구조를 탐구하면서 생성형 AI의 핵심 원리를 이해하고, 최신 기술을 직접 구현해보며 학습할 수 있도록 구성되어 있다. 트랜스포머와 확산 모델을 중심으로 생성형 AI의 주요 구조와 동작 방식을 다루고, 이미지·텍스트·오디오를 생성하는 멀티모달 모델의 작동 방식과 활용법을 깊이 있게 설명한다.오토인코더, CLIP, U-Net 등 핵심 개념을 정리하고, 텍스트 생성, 조건부 이미지 생성, 오디오 생성까지 다양한 프로젝트 중심 실습을 통해 개념과 구현을 함께 익힐 수 있도록 구성했다. 특히 허깅 페이스와 구글 코랩 기반의 환경을 활용해 복잡한 설정 없이 직접 실습할 수 있으며, 스테이블 디퓨전, 드림부스, LoRA 같은 최신 기술도 단계적으로 구현해볼 수 있다. 또한 텍스트 분류, 생성, 지시어 기반 파인튜닝부터 검색 증강 생성(RAG) 구현까지 실무에 필요한 전이 학습 기법을 실제 코드와 함께 소개하며, 인페인팅, 이미지 편집, 컨트롤넷 등 창의적인 활용 예제는 물론, 멀티모달, 3D 비전, 비디오 생성 등 최신 생성형 AI 기술의 발전 흐름도 함께 짚어본다. 생성형 AI를 실무에 활용하려는 개발자에게 이 책은 기술 원리부터 구현, 응용까지 한 권으로, 체계적으로 설명하는 좋은 안내서가 되어 줄 것이다.
저자소개
허깅 페이스의 머신러닝 엔지니어로서 확산 모델 소프트웨어와 애플리케이션을 개발하고 있으며, iOS를 비롯한 소프트웨어 개발 분야에서 20년 이상의 경력을 쌓았다. LateNiteSoft의 공동 창립자이자 CTO로 재직하며 사진 화질 개선을 위한 맞춤형 머신러닝 모델을 적용한 아이폰 앱인 Camera+의 핵심 기술을 개발했다. 사진 화질 개선과 초고해상도 변환을 위한 딥러닝 모델을 직접 개발했으며, DALL·E mini 프로젝트의 개발과 운영에도 참여했다.
목차
[1부 개방형 모델 활용]1장 생성 미디어 입문_1.1 이미지 생성_1.2 텍스트 생성_1.3 사운드 클립 생성_1.4 윤리적 및 사회적 영향_1.5 생성 모델의 과거와 현재_1.6 생성형 AI 모델 개발 방법_1.7 요약2장 트랜스포머_2.1 언어 모델의 활용 사례_2.2 트랜스포머 블록_2.3 트랜스포머 모델 계보_2.4 사전 학습의 힘_2.5 트랜스포머 요약_2.6 언어 모델을 이용한 텍스트 생성 프로젝트_2.7 요약_연습 문제_도전 과제_참고 자료3장 정보 압축과 표현_3.1 오토인코더_3.2 변이형 오토인코더_3.3 CLIP_3.4 CLIP의 대안_3.5 의미 기반 이미지 검색 프로젝트_3.6 요약_연습 문제_도전 과제_참고 자료4장 확산 모델_4.1 핵심 원리: 반복 정제_4.2 확산 모델 학습_4.3 노이즈 스케줄 심층 분석_4.4 U-Net과 대안 심층 분석_4.5 확산 목표 심층 분석_4.6 비조건부 확산 모델 학습 프로젝트_4.7 요약_연습 문제_도전 과제_참고 자료5장 스테이블 디퓨전과 조건부 생성_5.1 조건부 확산 모델을 위한 조건 추가하기_5.2 효율성을 높이는 잠재 확산_5.3 스테이블 디퓨전 구성 요소 심층 분석_5.4 주석이 달린 샘플링 루프_5.5 오픈 데이터, 오픈 모델_5.6 Gradio로 인터랙티브 머신러닝 데모 만들기 프로젝트_5.7 요약_연습 문제_도전 과제_참고 자료[2부 생성 모델을 위한 전이 학습] 6장 언어 모델 파인튜닝_6.1 텍스트 분류_6.2 텍스트 생성_6.3 지시 사항_6.4 어댑터 소개_6.5 양자화 소개_6.6 통합 구현_6.7 평가 방법에 대한 더 깊은 이해_6.8 검색 증강 생성 프로젝트_6.9 요약_연습 문제_도전 과제_참고 자료7장 스테이블 디퓨전 파인튜닝_7.1 스테이블 디퓨전 전체 모델 파인튜닝_7.2 드림부스_7.3 LoRA 학습_7.4 스테이블 디퓨전에 새로운 기능 추가하기_7.5 SDXL 드림부스 LoRA 학습하기 프로젝트_7.6 요약_연습 문제_도전 과제_참고 자료[3부 더 나아가기]8장 텍스트-이미지 모델의 창의적 활용_8.1 이미지-이미지 변환_8.2 인페인팅_8.3 프롬프트 가중치와 이미지 편집_8.4 인버전으로 실제 이미지 편집하기_8.5 컨트롤넷_8.6 이미지 프롬프팅과 이미지 변형_8.7 창의적 그림 생성 프로젝트_8.8 요약_연습 문제_참고 자료9장 오디오 생성_9.1 오디오 데이터_9.2 트랜스포머 기반 아키텍처를 활용한 음성-텍스트 변환_9.3 텍스트에서 음성으로, 생성 오디오로_9.4 오디오 생성 시스템 평가_9.5 향후 발전 방향_9.6 엔드-투-엔드 대화 시스템 프로젝트_9.7 요약_연습 문제_도전 과제_참고 자료10장 생성형 AI 분야의 발전과 최신 동향_10.1 선호도 최적화_10.2 긴 컨텍스트_10.3 전문가 혼합_10.4 최적화와 양자화_10.5 데이터_10.6 모든 것을 해결하는 단일 모델_10.7 컴퓨터 비전_10.8 3D 컴퓨터 비전_10.9 비디오 생성_10.10 멀티 모달리티_10.11 커뮤니티APPENDIX A. 오픈 소스 도구 APPENDIX B. LLM 메모리 요구사항 APPENDIX C. 엔드-투-엔드 검색 증강 생성