최근 챗지피티ChatGPT, 제미나이Gemini, 클로드Claude 등을 필두로 한 거대언어모델LLM 기반의 생성형 AI 기술이 비약적으로 발전하면서, 인공지능은 단순한 기술적 도구를 넘어 사회, 경제, 산업 전반의 혁신을 주도하는 핵심 동력이 되었다. 이러한 변화의 흐름 속에서 데이터 분석과 머신러닝/딥러닝에 대한 이해는 선택이 아닌 필수 역량이 되고 있다.
본 강의는 최신 AI 기술의 근간이 되는 머신러닝의 핵심 아이디어와 다양한 활용법을 실전 예제와 함께 전달한다. 효과적인 학습을 위해 아래 분야의 기초 지식이 요구되지만, 본문에서는 입문자에게 필요한 최소한의 내용만 선별하여 다룬다.
파이썬 프로그래밍
파이썬 데이터분석
선형대수
확률과통계
42H의 의미¶
이 책의 제목에 포함된 42H에서 42는 프랑스에서 시작된 혁신적인 소프트웨어 교육 기관 42에서 영감을 받았으며, H는 저자의 소속기관을 가리킨다.
소프트웨어 교육기관 42는 교사도, 교재도, 수업도 없는(No teachers, no books, no classes) 파격적인 교육 방식을 지향한다. 대신 동료 학습Peer-to-peer learning과 프로젝트 기반 학습Project-based learning을 통해 학생들 스스로 문제를 해결하고 성장하도록 돕는다.
참고로 숫자 42는 더글러스 애덤스의 SF 소설 《은하수를 여행하는 히치하이커를 위한 안내서》에서 유래했다. 이 소설에서 슈퍼컴퓨터가 750만 년 동안 계산하여 내놓은 '삶, 우주, 그리고 모든 것에 대한 궁극적인 해답’이 바로 숫자 42였다. 이 숫자의 의미는 명확하지 않지만 '프로그래밍이 디지털 시대의 모든 문제를 해결할 수 있는 열쇠’라는 의미로 해석되기도 한다.
이 책 또한 이러한 철학을 공유한다. 단순히 지식을 전달하는 것이 아니라, 독자 스스로 코드를 작성하고 실행하며 부딪히는 문제들을 해결해 나가는 과정에서 진정한 프로그래밍 실력을 키울 수 있기를 바란다.
인공지능, 머신러닝, 딥러닝, 데이터 과학¶
인공지능, 머신러닝, 딥러닝을 간략하게 정의하면 다음과 같다.
인공지능: 학습, 추론, 인지 등 인간의 지적 능력이 필요한 작업을 컴퓨터가 수행할 수 있도록 구현하는 기술 전반
머신러닝: 데이터에서 통계적 구조와 패턴을 학습하여, 명시적인 규칙 정의 없이도 새로운 데이터에 대한 예측이나 판단을 수행하는 방법론
딥러닝: 머신러닝의 특수한 형태로, 다층 인공신경망Deep Neural Networks을 사용하여 방대한 데이터 내의 복잡하고 추상적인 특징을 기계가 스스로 학습하는 기술
데이터 과학: 통계학, 데이터 분석, 머신러닝 등 다양한 기법을 활용하여 데이터로부터 유의미한 정보와 지식을 추출하는 기술 또는 방법론을 연구하고 활용하는 분야
실습 환경¶
파이썬 프로그래밍을 위해 코드를 작성하고 실행할 수 있는 환경이 필요하다. 가장 간단한 방법으로 인터넷 브라우저만으로 바로 시작할 수 있는 다음 두 클라우드 환경을 활용할 수 있다.
구글 코랩Google Colab: 구글 계정만 있으면 브라우저에서 바로 파이썬 코드를 작성하고 실행할 수 있다. 데이터 분석과 머신러닝에 최적화되어 있다.
깃허브 코드스페이스GitHub Codespaces: 깃허브 GitHub 저장소와 연동하여 실제 개발 환경과 유사한 경험을 제공한다.
반면에 자신의 컴퓨터에 직접 개발 환경을 구축할 수도 있다. 인터넷 연결 없이도 작업할 수 있으며, 더 자유로운 설정이 가능하다. 다음과 같이 로컬 환경 구축을 권장한다.
아나콘다Anaconda: 데이터 과학과 머신러닝에 필요한 다양한 라이브러리를 포함한 파이썬 배포판이다.
비주얼 스튜디오 코드Visual Studio Code(VS Code): 마이크로소프트에서 개발한 가볍고 강력한 소스 코드 편집기로, 파이썬 개발을 위한 풍부한 확장 기능을 제공한다.
학습법 및 선행 지식¶
각 장chapter은 이론 설명과 실습 코드로 구성되어 있으며, 제공되는 데이터셋을 활용해 예제를 직접 따라 하면서 내용을 깊이 이해할 수 있도록 설계되었다. 또한 학습 용도의 AI 도구를 적절히 활용하여 학습 효율을 높이는 것을 권장한다.
제공된 코드를 원활히 이해하려면 데이터 분석에 대한 기초적인 선행 지식과 함께 넘파이, 판다스, 맷플롯립 라이브러리에 어느 정도 익숙해야 한다.
AI 도구 활용¶
AI 도구를 활용하여 설명된 개념을 이해하고 실습 진행할 것을 권장한다. 특히 AI 도구와의 질문과 답변을 통해 더 깊은 이해로 이어지도록 할 수 있어야 한다. AI 도구 활용에 있어서 아래 사항들을 기억두면 좋다.
무엇을 알고 싶은지 먼저 자신의 문장으로 정리하기
질문 이해에 필요한 필요 정보를 단계별로 전달하기
AI에게 코드 작성 요청 금지
답변 결과를 스스로 이해하고 판정할 수 있도록 직접 확인하고 근거 살펴보기
AI에게 작성된 코드 설명 요청 활용
개인정보와 민감한 정보 사용하지 않기
개발자들의 AI 도구 활용도와 평가에 대한 설문조사 결과를 전달하는 StackOverflow 개발자 설문조사 2025를 읽어 보기를 권장한다.
필수 라이브러리¶
파이썬Python은 현재 데이터 분석 및 머신러닝 분야에서 가장 많이 사용되는 프로그래밍언어다.
아래 그림은 프로그래밍에 입문할 때 가장 배우고 싶어하는 라이브러리로 넘파이Numpy, 판다스Pandas, 파이토치PyTorch, 텐서플로우TensorFlow, 사이킷런Scikit-Learn 등 파이썬 라이브러리가 절대적임을 보여준다.

본 강의노트에서는 언급된 라이브러리 중 주로 다음 네 가지를 핵심적으로 사용한다.
| 라이브러리 | 설명 |
|---|---|
| 사이킷런scikit-learn | 다양한 머신러닝 모델과 데이터 전처리 도구 제공 |
| 넘파이NumPy | 다차원 어레이와 행렬 연산 지원 |
| 판다스Pandas | 테이블 형태의 데이터 처리를 위한 데이터프레임 지원 |
| 맷플롯립Matplotlib | 데이터 시각화에 필요한 다양한 그래프와 API 제공 |
피드백 및 문의¶
이 책의 내용에서 오류를 발견하거나, 관련 질문이 있다면 언제든지 GitHub 저장소의 Issues 탭을 이용해 주세요. 여러분의 피드백은 더 좋은 내용을 만드는 데 큰 도움이 됩니다.

