데이터 사이언스와 통계분석#
현대 정보화 사회에서 데이터를 적절하게 다루는 기술의 역할이 매우 크다. 데이터 사이언스가 바로 주어진 데이터로부터 정보를 추출하는 기법과 추출한 정보를 활용하는 분야를 가리킨다.
데이터로부터 정보를 얻기 위해 전통적으로 통계학, 확률론, 수학을 이용하여 이론적으로 접근하였지만 빅데이터 시대에 접어들면서 머신러닝, 딥러닝 등 컴퓨터를 보다 적극적으로 활용한 데이터 사이언스의 중요도가 절대적으로 커졌다.
데이터 사이언스의 기초는 통계분석이다. 무엇보다도 통계분석을 위한 기초지식과 사고방식을 직관적으로 이해할 수 있어야 한다. 통계분석을 깊게 이해할 수록 데이터에 숨겨진 유용하고 중요한 정보를 보다 잘 이끌어낼 수 있다.
파이썬 통계분석#
파이썬Python은 현재 데이터 분석 및 머신러닝 분야에서 가장 많이 사용되는 프로그래밍언어다.
아래 그림은 프로그래밍에 입문할 때 가장 배우고 싶어하는 라이브러리로 넘파이Numpy, 판다스Pandas, 파이토치PyTorch, 텐서플로우TensorFlow 등 파이썬 라이브러리가 절대적임을 보여준다.

파이썬 주요 라이브러리#
데이터 사이언스 분야에서 유용하게 사용되는 주요 파이썬 라이브러리는 다음과 같다.
데이터 처리, 시각화 등에 필요한 라이브러리
통계, 확률 등에 유용한 라이브러리
머신러닝, 데이터 분석 등에 유용한 라이브러리
여기서는 주로 넘파이NumPy, 판다스Pandas, 맷플롯립matplotlib을 활용한다.
넘파이: 효율적이고 빠른 다차원 배열array 지원
판다스: 테이블 데이터를 매우 효율적으로 다룰 수 있는 데이터프레임 지원
맷플롯립: 유용한 데이터 시각화 API 지원