Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

42H: 데이터 사이언스

Updated: 17 mrt 2026

데이터 사이언스는 주어진 데이터로부터 의미 있는 정보를 추출하고 활용하는 학문 분야다. 현대 정보화 사회에서 데이터를 효과적으로 다루는 능력은 필수 역량이 되었다. 특히 빅데이터 시대를 거쳐 AI 기술혁신 시대에 진입하면서 데이터 사이언스의 중요성이 급증했다.

데이터 사이언스의 기초는 통계분석이다. 통계분석의 원리를 명확히 이해할 때, 데이터 속 숨겨진 패턴과 인사이트를 효과적으로 발견할 수 있으며, AI 기술을 올바르게 활용하고 신뢰할 수 있는 능력을 갖추게 된다. ChatGPT, Gemini, 생성형 AI 등 첨단 AI 기술도 대규모 데이터와 통계적 원리에 기반하고 있다.

42H의 의미

이 책의 제목에 포함된 42H에서 42는 프랑스에서 시작된 혁신적인 소프트웨어 교육 기관 42에서 영감을 받았으며, H는 저자의 소속기관을 가리킨다.

소프트웨어 교육기관 42는 교사도, 교재도, 수업도 없는(No teachers, no books, no classes) 파격적인 교육 방식을 지향한다. 대신 동료 학습Peer-to-peer learning과 프로젝트 기반 학습Project-based learning을 통해 학생들 스스로 문제를 해결하고 성장하도록 돕는다.

참고로 숫자 42는 더글러스 애덤스의 SF 소설 《은하수를 여행하는 히치하이커를 위한 안내서》에서 유래했다. 이 소설에서 슈퍼컴퓨터가 750만 년 동안 계산하여 내놓은 '삶, 우주, 그리고 모든 것에 대한 궁극적인 해답’이 바로 숫자 42였다. 이 숫자의 의미는 명확하지 않지만 '프로그래밍이 디지털 시대의 모든 문제를 해결할 수 있는 열쇠’라는 의미로 해석되기도 한다.

이 책 또한 이러한 철학을 공유한다. 단순히 지식을 전달하는 것이 아니라, 독자 스스로 코드를 작성하고 실행하며 부딪히는 문제들을 해결해 나가는 과정에서 진정한 프로그래밍 실력을 키울 수 있기를 바란다.

실습 환경

파이썬 프로그래밍을 위해 코드를 작성하고 실행할 수 있는 환경이 필요하다. 가장 간단한 방법으로 인터넷 브라우저만으로 바로 시작할 수 있는 다음 두 클라우드 환경을 활용할 수 있다.

반면에 자신의 컴퓨터에 직접 개발 환경을 구축할 수도 있다. 인터넷 연결 없이도 작업할 수 있으며, 더 자유로운 설정이 가능하다. 다음과 같이 로컬 환경 구축을 권장한다.

책 주요 내용

이 책에서 다루는 데이터 사이언스 기초의 주요 내용은 다음과 같다.

  • 파이썬 기초 프로그래밍: 리스트, 사전, 넘파이 배열 다루기

  • 데이터 처리: 판다스를 이용한 데이터 조작

  • 데이터 시각화: 1차원, 2차원 데이터 시각화

  • 통계 기초: 데이터 대표값, 기댓값, 분산

  • 확률분포: 이산, 연속, 정규분포

  • 표본과 모집단: 표본분포, 표본추출

  • 가설검정: 통계적 검증

  • 상관관계 분석: 선형 상관관계

학습법 및 선행 지식

이 학습 과정은 각 장chapter이 이론 설명과 실습 코드로 구성되어 있으며, 제공되는 데이터셋을 활용해 예제를 직접 따라 하면서 이해를 깊게 할 수 있도록 설계되어 있다. 또한 학습 용도의 AI 도구를 적극적으로 활용하여 학습 효율을 높이는 것을 권장한다. 이러한 과정을 효과적으로 따라가기 위해서는 변수, 함수, 반복문과 같은 기초적인 파이썬 문법과 확률 및 통계의 기본 개념에 대한 선행 지식이 필요하다.

AI 도구 활용

AI 도구를 활용하여 설명된 개념을 이해하고 실습 진행할 것을 권장한다. 특히 AI 도구와의 질문과 답변을 통해 더 깊은 이해로 이어지도록 할 수 있어야 한다. AI 도구 활용에 있어서 아래 사항들을 기억두면 좋다.

  • 무엇을 알고 싶은지 먼저 자신의 문장으로 정리하기

    • 질문 이해에 필요한 필요 정보를 단계별로 전달하기

    • AI에게 코드 작성 요청 금지

  • 답변 결과를 스스로 이해하고 판정할 수 있도록 직접 확인하고 근거 살펴보기

    • AI에게 작성된 코드 설명 요청 활용

  • 개인정보와 민감한 정보 사용하지 않기

개발자들의 AI 도구 활용도와 평가에 대한 설문조사 결과를 전달하는 StackOverflow 개발자 설문조사 2025를 읽어 보기를 권장한다.

파이썬 데이터 분석 라이브러리

파이썬Python은 현재 데이터 분석 및 머신러닝 분야에서 가장 많이 사용되는 프로그래밍언어다.

아래 그림은 프로그래밍에 입문할 때 가장 배우고 싶어하는 라이브러리로 넘파이Numpy, 판다스Pandas, 파이토치PyTorch, 텐서플로우TensorFlow, 사이킷런Scikit-Learn 등 파이썬 라이브러리가 절대적임을 보여준다.

데이터 사이언스 분야에서 유용하게 사용되는 파이썬 주요 라이브러리는 다음과 같다.

여기서는 주로 넘파이NumPy, 판다스Pandas, 맷플롯립matplotlib을 활용한다. 넘파이는 효율적이고 빠른 다차원 배열array을, 판다스는 테이블 데이터를 매우 효율적으로 다룰 수 있는 데이터프레임을 지원한다. 그리고 맷플롯립은 데이터 시각화에 유용한 다양한 API 도구를 제공한다.

피드백 및 문의

이 책의 내용에서 오류를 발견하거나, 관련 질문이 있다면 언제든지 GitHub 저장소의 Issues 탭을 이용해 주세요. 여러분의 피드백은 더 좋은 내용을 만드는 데 큰 도움이 됩니다.