책소개
"ChatGPT, Gemini, Perplexity 등 최근 주목받는 생성형 AI는 단순한 도구의 차원을 넘어, 과학·기술·예술·교육 등 사회 전반에 걸쳐 심대한 변화를 일으키고 있다. 이들은 인간의 언어를 이해하고 창작을 돕는 동시에 복잡한 문제 해결을 지원하는 ‘디지털 조력자’로서 일상의 많은 영역에 침투하고 있다. AI는 이제 전문가만의 영역이 아니라 정부, 기업, 개인 모두가 업무·학습·창작의 도구로 활용하고 있으며, 그 확산 속도는 생각보다 더 빠르다. 실제로 기업의 고객 응대, 법률 검토, 기사 작성 보조, 논문 및 문서 요약, 코딩 등 다양한 분야에서 생성형 AI는 실질적인 ‘효율의 도구’로 쓰이고 있다.
이러한 변화는 불과 수십 년 전인 1980년대 PC의 등장을 떠올리게 한다. 당시 컴퓨터는 극소수만이 사용하는 전문 도구였으나, 얼마 지나지 않아 워드, 엑셀, 이메일은 ‘기술’이 아닌 ‘기본 상식’이 되었다. 오늘날의 딥러닝 역시 그 시절의 PC와 같다. 생성형 AI는 딥러닝이라는 기술의 한 응용에 불과하지만, 그 근간에는 인간의 학습구조를 모방한 ‘인공신경망’이라는 개념이 자리하고 있다. 이는 단지 코드를 짜는 ‘기술’이라기보다 ‘데이터로부터 어떻게 학습하고 예측할 수 있는가?’라는 원리에 대한 이해를 바탕으로 한다.
생성형 AI 덕분에 복잡한 라이브러리 사용법이나 모형 구현 코드의 습득은 거의 불필요한 지식이 되어 버렸기 때문에 미래사회에서 필수적인 역량은 딥러닝의 개념, 작동원리, 데이터 처리의 중요성을 이해하는 것이다. 딥러닝 모형이 어떻게 학습을 진행하고, 어떤 구조로 정보를 표현하는지를 이해하면, AI가 내놓은 결과를 맹신하지 않고 비판적으로 해석할 수 있다. 단순히 ‘생성형 AI를 활용해서 정보를 검색하고, 글을 작성하고 아이디어를 도출하는’ 이용자적 자세가 아니라, 왜 그런 결과가 나왔는지 설명할 수 있는 역량, 이것이 진짜 디지털 문해력(AI literacy)이다.
이 책은 이러한 목적을 가지고 총 3부로 구성하였다. 제1부에서는 딥러닝의 개념, 기본구조, 모수추정과 작동원리, 모형의 진단과 성능향상 기법, 자연어의 수량화 등 딥러닝의 기본원리를 다루었다. 제2부와 제3부는 딥러닝의 응용으로 computer vision과 LLM을 포함한 언어모형을 중점적으로 논의하였다. 제2부에서는 R-CNN 계열과 YOLO-v1부터 YOLO-v12까지를 이용한 자율자동차에서 필수적인 객체인식, 딥드림과 스타일 이전 등을 이용한 AI 예술, 그리고 VAE, Diffusion 모형, GAN 모형 등을 이용한 데이터의 생성과 cross-domain 등을 다루었다. 제3부에서는 현재의 첨단 생성형 AI를 탄생하게 한 transformer와 이로부터 파생된 BERT, GPT, T5, BART 등의 사전학습모형과 Hugging Face를 이용한 다양한 사전학습된 모형들의 이용법, fine tuning, 그리고 한국어 모형들을 다루었다. Transformer를 이용한 생성형 AI의 최근 기법으로 ViT, OCR, CLIP, Stable Diffusion, SAM, 그리고 In-painting 등도 이론적 원리를 설명하고 적용하였다. 또한, Transformer 이후의 LLM 모형이 어떻게 진화하고 있는지를 논의하였고, 특히 ChatGPT나 Gemini 등과 같은 Sovereign 생성형 LLM의 개발 절차를 9단계로 나누어 상세하게 정리하였으며, 이를 기반으로 한국형 foundation 모형이 필요한 이유를 설명하였다. 끝으로, AI(foundation LLM)가 사용자의 의도를 이해하도록 prompt를 수정하고 개선하여 최선의 결과를 도출하는 prompt engineering을 다섯 가지 prompting framework의 관점에서 다양한 예제 prompt와 함께 논의하였다.
앞으로는 AI와 공존하는 삶이 아니라, AI를 이해하고 다룰 수 있는 사람이 더 많은 기회를 얻게 될 것이다. AI를 몰라도 살아는 갈 수 있다. 하지만 AI의 원리를 이해하는 사람은, 그 변화를 주도할 수 있다. AI를 잘 쓰는 것도 중요하지만, AI를 바르게 이해하는 사람이 더욱 중요한 시대가 오고 있다. 이 책이 이러한 시대적 요구에 부응할 수 있기를 기대해 본다.
이 책에서 제공된 코드는 PyTorch로 작성되었으며 필요한 코드와 데이터는 자유아카데미 홈페이지 자료실(www.freeaca.com)에서 내려받을 수 있다. 이 책의 오류수정과 수많은 개념도를 그려준 임자영 양과 박진세 군에게 감사한 마음을 전하고, 이 책이 나오기까지 묵묵하게 성원해 주고 지원해 준 아내와 가족에게 사랑의 마음을 전한다.
"
목차
"1부 딥러닝의 작동원리
제1장 머신러닝 학습 절차의 핵심 및 내용 요약
1.1 ML(machine learning)
1.2 DL(deep learning)
1.3 RL(Reinforcement learning)
제2장 딥러닝 데이터와 세 가지 기본신경망
2.1 데이터의 사전정리
2.2 딥러닝에 사용되는 데이터의 형태
2.3 은닉층 설계를 위한 세 가지 핵심 신경망
제3장 손실함수와 최적화
3.1 출력층과 손실함수
3.2 역전파
3.3 최적화 알고리즘
제4장 Pytorch의 이해
4.1 Pytorch의 문법과 적용
4.2 딥러닝 모델과 데이터 셋의 구조와 모델의 저장
4.3 MLP, RNN, 그리고 CNN의 적용
제5장 오차분석, 초모수 조절, 그리고 딥러닝 모형의 성능 향상
5.1 오차분석
5.2 자료 분할
5.3 초모수 조절
5.4 딥러닝 모형의 성능 향상
제6장 CNN의 응용과 이전학습
6.1 사람의 성별을 구별하기 위한 CNN의 적용
6.2 이전학습
6.3 이전학습과 자료증대
제7장 텍스트 자료의 사전정리와 RNN의 적용
7.1 텍스트 자료의 사전정리과정
7.2 Word2Vec, Glove, 그리고 Word Embedding
7.3 RNN 모형의 적용
7.4 다른 RNN 모형과 CNN 모형과의 비교
7.5 텍스트 데이터의 사전정리의 요약
제8장 Mamba, GNN, KAN 모형을 이용한 시계열 분석
8.1 Mamba
8.2 GNN(Graph Neural Network)
8.3 KAN(Komogorov Arnold Network)
8.4 시계열 자료의 적용
제9장 CNN 아키텍처의 진화
9.1 LeNet-5
9.2 AlexNet
9.3 VGGNet
9.4 ResNet
9.5 Inception
9.6 Stem-Learner-Task 아키텍처
9.7 딥러닝의 진화
2부 Computer Vision
제10장 객체탐색 I (R-CNN, Fast R-CNN, Faster R-CNN)
10.1 Upsampling
10.2 교통표식의 식별
10.3 R-CNN에 의한 객체탐색
10.4 Fast R-CNN
10.5 Faster R-CNN
제11장 객체탐색 II (YOLO~YOLO12)
11.1 YOLO의 참사각박스와 목적변수의 결정
11.2 YOLO-v3
11.3 YOLO version의 진화
제12장 채널 시각화, 딥드림, 그리고 스타일 이전
12.1 채널 시각화
12.2 딥드림
12.3 스타일 이전
제13장 Variational Autoencoder와 Diffusion 모형
13.1 AutoEncoder
13.2 Variational Autoencoder
13.3 조건부 VAE
13.4 Diffusion 모형
제14장 Generative Adversarial Networks(GAN)
14.1 DCGAN
14.2 Cycle GAN
3부 LLM
제15장 Seq2Seq 모형
15.1 자료의 사전정리
15.2 sequence-to-sequence 학습
15.3 Attention을 이용한 Seq2Seq
제16장 Transformer
16.1 Transformer의 입력층
16.2 Transformer의 은닉층
16.3 Transformer의 적용
16.4 한국어 챗봇
제17장 자연어 모형
17.1 사전학습, fine tuning, few-shot, 그리고 zero-shot 학습
17.2 서브워드 토큰화
17.3 Auto-encoding 언어모형
17.4 GPT(generative pretrained transformer)와 text 생성을 위한 Sampling
제18장 ViT, OCR, CLIP, Stable Diffusion, SAM, In-painting
18.1 ViT(Vision Transformer)
18.2 TrOCR
18.3 CLIP(contrastive language-image pre-training)
18.4 Stable Diffusion 모형
18.5 SAM(Segmentation Anything Model)
18.6 In-painting
제19장 LLM 모형의 진화
19.1 T5와 LlaMA
19.2 Transformer attention의 진화
19.3 RWKV
19.4 LLM 모형의 적절성 조절
19.5 RAG(Retrieval Augmented Generation)
19.6 LLM 모형의 비교와 Open source LLM
19.7 AI의 진화
제20장 Hugging Face를 이용한 언어모형의 적용과 응용
20.1 transformers에서 NLP 모형의 선택 방법
20.2 Hugging Face를 이용한 언어모형의 적용과 응용
20.3 Hugging Face를 이용한 Fine Tuning
제21장 LLM 만드는 절차와 Prompt Engineering
21.1 LLM 모형을 만드는 절차
21.2 한국형 LLM은 필요한가?
21.3 Prompt Engineering
참고문헌
찾아보기
"