실용 SQL - PostgreSQL로 시작하는 데이터 스토리텔링 가이드북
★ 모두를 위한 PostgreSQL 완벽 가이드
책 초반부의 상세한 시스템 설정 지침부터 최신 SQL 구문과 기능, 고급 쿼리 기술에 관한 내용을 따라가다 보면 초보자도 어느새 전문가처럼 데이터를 분석하며 데이터 속에 숨어 있는 이야기를 찾아낼 수 있습니다. 각 장에 포함된 실습과 연습문제는 지금껏 프로그래밍을 한번도 접한 적 없는 사람도 강력한 데이터베이스를 구축하고 정보에 효율적으로 접근할 수 있게 돕습니다. 또한 이 책의 마지막 장에서는 데이터 분석을 위한 초기 아이디어 생성, 데이터 검토, 결론 도출에 이르기까지 데이터 스토리텔링 전 과정에 관한 가이드라인을 제공합니다
SQL을 따분하고 어렵게 학습할 필요는 없습니다. 현직 데이터 분석 전문가의 노하우와 이야기가 가득 담긴 《실용 SQL》을 통해 더욱 쉽고 재미있게 나만의 DB 구축 및 관리에 필요한 모든 것을 습득하세요!
★ 이 책에서 PostgreSQL을 사용하는 이유
ㆍ 무료입니다.
ㆍ Windows와 macOS, Linux 운영체제에서 사용할 수 있습니다.
ㆍ SQL 구현은 SQL 표준을 밀접하게 따르는 것을 목표로 합니다.
ㆍ 사용자가 많아 온라인에서 쉽게 도움을 구할 수 있습니다.
ㆍ PostGIS는 기하학적 데이터를 분석하고 매핑 기능을 수행할 수 있습니다.
ㆍ AWS 및 Google Cloud 같은 클라우드 컴퓨팅 환경에서 사용할 수 있습니다.
ㆍ Django로 구동되는 웹 애플리케이션에서 데이터 저장소로 사용합니다.
★ 각 장의 내용(개요)
ㆍ '1장. 코딩 환경 설정'에서는 PostgreSQL과 pgAdmin 사용자 인터페이스, 텍스트 편집기를 설정하고 예제 코드와 데이터를 다운로드하는 방법을 소개합니다.
ㆍ '2장. 데이터베이스와 테이블 생성'에서는 교사에 관한 간단한 데이터셋을 새 데이터베이스에 로드하는 단계별 지침을 소개합니다.
ㆍ '3장. SELECT로 시작하는 데이터 탐험'은 기초적인 SQL 쿼리 구문과 데이터를 정렬하고 필터링하는 법을 배웁니다.
ㆍ '4장. 데이터 타입 이해'는 테이블이 특정 타입의 데이터를 담을 수 있도록 열을 설정하는 방법에대해 알아봅니다. 문자부터 날짜, 다양한 형식의 숫자를 활용합니다.
ㆍ '5장. 데이터 가져오고 내보내기'는 SQL 명령어를 사용하여 외부 파일에서 데이터를 가져오거나내보내는 방법을 배웁니다. 이 장에서 사용한 미국 인구조사 데이터 테이블은 뒷장에서도 계속해서 사용됩니다.
ㆍ '6장. SQL을 사용한 기본 수학 및 통계'는 산술 연산을 다루고 집계 함수를 사용하여 합계, 평균값, 중앙값을 찾는 방법에 대해 소개합니다.
ㆍ '7장. 관계형 데이터베이스’에서 테이블 조인은 키 열에서 조인하여 여러 개의 서로 상관관계에 있는 테이블을 쿼리하는 방법을 소개합니다. 언제 어떤 조인을 써야 하는지 배우게 됩니다.
ㆍ '8장. 적시적소에 알맞은 테이블 디자인'은 데이터의 조직과 무결성을 개선하기 위해 테이블을 설정하는 방법과 인덱스를 사용하여 쿼리 속도를 높이는 방법을 다룹니다.
ㆍ '9장. 그루핑과 요약으로 정보 추출'은 집계 함수를 사용하여 연간 설문조사를 기반으로 한 미국도서관 이용 추세를 찾는 방법을 설명합니다.
ㆍ '10장. 데이터 검사 및 수정'은 육류, 계란 및 가금류 생산업체에 대한 기록 모음을 예로 들어 불완전하거나 부정확한 데이터를 찾고 수정하는 방법을 살펴봅니다.
ㆍ '11장. SQL의 통계 함수'는 데이터셋에서 더 많은 의미를 도출하는 데 도움이 되는 SQL의 상관관계, 회귀 및 순위 함수를 소개합니다.
ㆍ '12장. 날짜와 시간을 사용한 작업'은 뉴욕시 택시 여행과 Amtrak 기차 일정에 대한 데이터를 사용하여 시간대 작업을 포함해 데이터베이스에서 날짜 및 시간을 생성, 조작 및 쿼리하는 방법을 설명합니다.
ㆍ '13장. 고급 쿼리 기술'은 서브쿼리 및 교차 표와 같은 더 복잡한 SQL 작업을 사용하는 방법을 설명하고, 온도 판독값에 대한 데이터셋의 값을 재분류하는 CASE 문에 대해 설명합니다.
ㆍ '14장. 의미 있는 데이터를 찾기 위한 텍스트 마이닝'에서는 미국 대통령의 연설 모음을 예로 들어 PostgreSQL의 전체 텍스트 검색 엔진과 정규식을 사용하여 비정형 텍스트에서 데이터를 추출하는 방법을 다룹니다.
ㆍ '15장. PostGIS를 사용한 공간 데이터 분석'은 공간 개체와 관련된 데이터 유형 및 쿼리를 도입하여 주, 도로 및 강과 같은 지리적 특징을 분석할 수 있습니다.
ㆍ '16장. JSON 데이터 사용'에서는 JSON(JavaScript Object Notation) 데이터 형식을 소개하고 영화와 지진에 대한 데이터를 사용하여 PostgreSQL의 JSON 사용법을 살펴봅니다.
ㆍ '17장. 뷰, 함수, 트리거로 시간 절약'은 반복되는 일상적인 작업을 방지할 수 있도록 데이터베이스작업을 자동화하는 방법을 설명합니다.
ㆍ '18장. 명령줄에서 PostgreSQL 사용'은 컴퓨터의 명령 프롬프트에서 텍스트 명령을 사용하여 데이터베이스에 연결하고 쿼리를 실행하는 방법을 다룹니다.
ㆍ '19장. 데이터베이스 관리'는 데이터베이스 크기 추적, 사용자 설정 및 데이터 백업에 대한 팁과절차를 제공합니다.
ㆍ '20장. 데이터 스토리텔링 프로세스'는 분석을 위한 아이디어 생성, 데이터 검토, 건전한 결론 도출 및 결과를 명확하게 제시하기 위한 지침을 제공합니다.
ㆍ '부록. PostgreSQL 추가 자료'에는 기술 향상에 도움이 되는 소프트웨어와 문서를 정리했습니다.
■ 역자의 말(강민혁)
PostgreSQL은 2022년 스택오버플로 설문조사를 기준으로 현업 개발자가 가장 많이 사용하는 데이터베이스가 되었습니다. ‘세상에서 가장 앞선 오픈소스 관계형 데이터베이스’라는 소개답게 표준 SQL의 지원과 뛰어난 자체 기능으로 개발자들의 선택을 받았죠. 이 책은 ‘가장 앞선 데이터베이스’인 PostgreSQL을 사용해 데이터를 관리하고 분석해 여기서 숨겨진 이야기를 찾는 방법을 알려 줍니다.
PostgreSQL의 로고인 코끼리 슬로닉(Slonik)은 애거서 크리스티의 소설 《코끼리는 기억한다》에서 아이디어를 받아 만들어졌습니다. 정작 실제 코끼리는 등장하지 않는 이 소설에선 코끼리에 대한 한 가지 말을 소개합니다. “인도에서 어떤 재봉사가 바늘 같은 물건으로 코끼리를 찔렀대요. 그 뒤 코끼리는 그 재봉사 곁을 지날 때마다 입 안 가득 담고 있던 물을 뿌렸다죠. 시간이 지나도 절대 잊지 않고 기억했다는 말이죠. 거기서 나온 말이에요. 코끼리는 기억한다.”
이 책은 ‘PostgreSQL로 시작하는 데이터 스토리텔링 가이드북’이라는 부제처럼 데이터를 더 효율적으로 정리하고 분석하려는 모두에게 도움이 됩니다. 쉽게 따라 할 수 있는 실습을 통해 PostgreSQL이라는 코끼리의 코부터 다리까지 직접 만져 볼 수 있도록 차근차근 가이드합니다. 그렇게 안내하는 대로 한 부분씩 코끼리를 만져 나가다 보면 어느새 코끼리의 전체적인 윤곽을 파악할 수 있을 것입니다. 적어도 데이터를 분석하는 과정에서 코끼리의 몸을 잘못 찔러서 미움을 사는 일은 피할 수 있겠죠?
자, 크고 듬직한 데다 기억력까지 좋은 코끼리를 만지러 가보시죠.
오랜 기간 활동한 기자로서 스프레드시트, 데이터베이스, 코드를 활용해 데이터 속에서 뉴스를 찾아내는 ‘데이터 저널리즘’ 얼리어답터이다. 현재 월스트리트 저널 에서 데이터 편집자로 재직하며 경제와 무역, 인구 통계, 코로나-19 등의 주제를 다루고 있다. 이전에는 USA 투데이 와 포킵시 저널 이 속한 미디어 그룹 가네트에서 근무했으며, 퀘스트엑스 와 도큐먼트클라우드 에서 제품 개발 및 콘텐츠 전략 역할을 맡았다.
· 깃허브 https://github.com/anthonydb/practical-sql-2
1장. 코딩 환경 설정
3장. SELECT로 시작하는 데이터 탐험
5장. 데이터 가져오고 내보내기
7장. 관계형 데이터베이스에서 테이블 조인
9장. 그루핑과 요약으로 정보 추출
11장. SQL 통계 함수
13장. 고급 쿼리 기술
15장. PostGIS를 사용한 공간 데이터 분석
17장. 뷰, 함수, 트리거로 시간 절약
19장. 데이터베이스 관리