{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "(sec:pandas_4)=\n", "# 판다스 활용: 기초 통계" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**주요 내용**" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`Series`와 `DataFrame` 객체를로부터 기초 통계 자료를 추출하는 방식을 다룬다.\n", "\n", "* 합, 평균, 표준편차\n", "* 상관관계, 공분산\n", "* 중복값 처리" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**기본 설정**" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`pandas` 라이브러리는 보통 `pd` 라는 별칭으로 사용된다." ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "import numpy as np" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "랜덤 시드, 어레이 내부에 사용되는 부동소수점 정확도, 도표 크기 지정 옵션 등은 이전과 동일하다." ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "np.random.seed(12345)\n", "np.set_printoptions(precision=4, suppress=True)\n", "\n", "import matplotlib.pyplot as plt\n", "plt.rc('figure', figsize=(10, 6))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`Series`와 `DataFrame`을 표로 보여줄 때 사용되는 행의 수를 20으로 지정한다. \n", "기본 값은 60이다." ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "60" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.options.display.max_rows # 원래 60이 기본." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "기본값을 20으로 변경한다." ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [], "source": [ "pd.set_option(\"display.max_rows\", 20)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 데이터 탐색" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "데이터 탐색을 위한 주요 메서드를 살펴 본다.\n", "\n", "- `head()`\n", "- `tail()`\n", "- `info()`" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "설명을 위해 아래 데이터프레임을 이용한다." ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
yearstatepopdebt
one2000Ohio1.50.000
two2001Ohio1.70.125
three2002Ohio3.60.250
four2001Nevada2.40.375
five2002Nevada2.90.500
six2003Nevada3.20.625
seven2002NY8.30.750
eight2003NY8.40.875
nine2004NY8.51.000
\n", "
" ], "text/plain": [ " year state pop debt\n", "one 2000 Ohio 1.5 0.000\n", "two 2001 Ohio 1.7 0.125\n", "three 2002 Ohio 3.6 0.250\n", "four 2001 Nevada 2.4 0.375\n", "five 2002 Nevada 2.9 0.500\n", "six 2003 Nevada 3.2 0.625\n", "seven 2002 NY 8.3 0.750\n", "eight 2003 NY 8.4 0.875\n", "nine 2004 NY 8.5 1.000" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "dict = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada', 'NY', 'NY', 'NY'],\n", " 'year': [str(num) for num in [2000, 2001, 2002, 2001, 2002, 2003, 2002, 2003, 2004]],\n", " 'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2, 8.3, 8.4, 8.5],\n", " 'debt':np.linspace(0, 1, 9)}\n", "\n", "frame = pd.DataFrame(dict, columns=['year', 'state', 'pop', 'debt'],\n", " index=['one', 'two', 'three', 'four',\n", " 'five', 'six', 'seven', 'eight', 'nine'])\n", "frame" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**`head()` 메서드**" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`head()` 메서드는 지정된 크기만큼의 행을 보여준다. \n", "인자를 지정하지 않으면 처음 5개의 행을 보여준다." ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
yearstatepopdebt
one2000Ohio1.50.000
two2001Ohio1.70.125
three2002Ohio3.60.250
\n", "
" ], "text/plain": [ " year state pop debt\n", "one 2000 Ohio 1.5 0.000\n", "two 2001 Ohio 1.7 0.125\n", "three 2002 Ohio 3.6 0.250" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "frame.head(3)" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
yearstatepopdebt
one2000Ohio1.50.000
two2001Ohio1.70.125
three2002Ohio3.60.250
four2001Nevada2.40.375
five2002Nevada2.90.500
\n", "
" ], "text/plain": [ " year state pop debt\n", "one 2000 Ohio 1.5 0.000\n", "two 2001 Ohio 1.7 0.125\n", "three 2002 Ohio 3.6 0.250\n", "four 2001 Nevada 2.4 0.375\n", "five 2002 Nevada 2.9 0.500" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "frame.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**`tail()` 메서드**" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`tail()` 메서드는 지정된 크기만큼의 행을 뒤에서부터 보여준다. \n", "인자를 지정하지 않으면 뒤에서부터 5개의 행을 보여준다." ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
yearstatepopdebt
seven2002NY8.30.750
eight2003NY8.40.875
nine2004NY8.51.000
\n", "
" ], "text/plain": [ " year state pop debt\n", "seven 2002 NY 8.3 0.750\n", "eight 2003 NY 8.4 0.875\n", "nine 2004 NY 8.5 1.000" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "frame.tail(3)" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
yearstatepopdebt
five2002Nevada2.90.500
six2003Nevada3.20.625
seven2002NY8.30.750
eight2003NY8.40.875
nine2004NY8.51.000
\n", "
" ], "text/plain": [ " year state pop debt\n", "five 2002 Nevada 2.9 0.500\n", "six 2003 Nevada 3.2 0.625\n", "seven 2002 NY 8.3 0.750\n", "eight 2003 NY 8.4 0.875\n", "nine 2004 NY 8.5 1.000" ] }, "execution_count": 9, "metadata": {}, "output_type": "execute_result" } ], "source": [ "frame.tail()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**`info()` 메서드**" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "열(columns) 별로 결측치가 아닌 항목의 수와 자료형을 확인해준다.\n", "\n", "- `9 non-null`: 결측치가 아닌 항목이 9개 있음을 의미함.\n", "- `object`: 일반적으로 문자열 자료형을 가리킴." ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "Index: 9 entries, one to nine\n", "Data columns (total 4 columns):\n", " # Column Non-Null Count Dtype \n", "--- ------ -------------- ----- \n", " 0 year 9 non-null object \n", " 1 state 9 non-null object \n", " 2 pop 9 non-null float64\n", " 3 debt 9 non-null float64\n", "dtypes: float64(2), object(2)\n", "memory usage: 360.0+ bytes\n" ] } ], "source": [ "frame.info()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 합, 평균, 표준편차" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "기초 통계에서 사용되는 주요 메서드들의 활용법을 살펴본다.\n", "\n", "* `sum()`\n", "* `mean()`\n", "* `std()`\n", "* `idxmax()`/`idxmin()`\n", "* `cumsum()`\n", "* `describe()`" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "기본적으로 열 단위로 작동하며, 결측치는 행 또는 열의 모든 값이 결측치가 아니라면 기본적으로 무시된다.\n", "행 단위로 작동하게 하려면 축을 `axis=1` 또는 `axis='columns`로 지정하고,\n", "결측치를 무시하지 않으려면 `skipna=False`로 지정한다." ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
onetwo
a1.40NaN
b7.10-4.5
cNaNNaN
d0.75-1.3
\n", "
" ], "text/plain": [ " one two\n", "a 1.40 NaN\n", "b 7.10 -4.5\n", "c NaN NaN\n", "d 0.75 -1.3" ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],\n", " [np.nan, np.nan], [0.75, -1.3]],\n", " index=['a', 'b', 'c', 'd'],\n", " columns=['one', 'two'])\n", "df" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "* `sum()` 메서드: 행/열 단위 합 계산" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "one 9.25\n", "two -5.80\n", "dtype: float64" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.sum()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "결측치를 무시하지 않으면, 결측치가 포함된 행/렬에 대한 계산은 하지 않는다." ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "one NaN\n", "two NaN\n", "dtype: float64" ] }, "execution_count": 13, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.sum(skipna=False)" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "a 1.40\n", "b 2.60\n", "c 0.00\n", "d -0.55\n", "dtype: float64" ] }, "execution_count": 14, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.sum(axis='columns')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "시리즈는 하나의 열을 갖는 데이터프레임처럼 작동한다." ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "a 1.40\n", "b 7.10\n", "c NaN\n", "d 0.75\n", "Name: one, dtype: float64" ] }, "execution_count": 15, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df['one']" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "9.25" ] }, "execution_count": 16, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df['one'].sum()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "* `mean()` 메서드: 평균값 계산" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "one 3.083333\n", "two -2.900000\n", "dtype: float64" ] }, "execution_count": 17, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.mean()" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "a 1.400\n", "b 1.300\n", "c NaN\n", "d -0.275\n", "dtype: float64" ] }, "execution_count": 18, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.mean(axis='columns')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "결측치를 무시하지 않으면, 결측치가 포함된 행/렬에 대한 계산은 하지 않는다." ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "one NaN\n", "two NaN\n", "dtype: float64" ] }, "execution_count": 19, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.mean(skipna=False)" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "a NaN\n", "b 1.300\n", "c NaN\n", "d -0.275\n", "dtype: float64" ] }, "execution_count": 20, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.mean(axis='columns', skipna=False)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "시리즈의 경우도 동일하게 작동한다." ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "3.0833333333333335" ] }, "execution_count": 21, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df['one'].mean()" ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "nan" ] }, "execution_count": 22, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df['one'].mean(skipna=False)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "* `std()` 메서드: 표준편차 계산" ] }, { "cell_type": "code", "execution_count": 23, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "one 3.493685\n", "two 2.262742\n", "dtype: float64" ] }, "execution_count": 23, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.std()" ] }, { "cell_type": "code", "execution_count": 24, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "a NaN\n", "b 8.202439\n", "c NaN\n", "d 1.449569\n", "dtype: float64" ] }, "execution_count": 24, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.std(axis='columns')" ] }, { "cell_type": "code", "execution_count": 25, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "one NaN\n", "two NaN\n", "dtype: float64" ] }, "execution_count": 25, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.std(skipna=False)" ] }, { "cell_type": "code", "execution_count": 26, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "a NaN\n", "b 8.202439\n", "c NaN\n", "d 1.449569\n", "dtype: float64" ] }, "execution_count": 26, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.std(axis='columns', skipna=False)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "* `idxmax()`/`idxmin()`: 최댓값/최솟값을 갖는 인덱스 확인" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "아래 코드는 열별 최댓값을 갖는 인덱스를 찾아준다." ] }, { "cell_type": "code", "execution_count": 27, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "one b\n", "two d\n", "dtype: object" ] }, "execution_count": 27, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.idxmax()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "* `cumsum()`: 누적 합 계산" ] }, { "cell_type": "code", "execution_count": 28, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
onetwo
a1.40NaN
b8.50-4.5
cNaNNaN
d9.25-5.8
\n", "
" ], "text/plain": [ " one two\n", "a 1.40 NaN\n", "b 8.50 -4.5\n", "c NaN NaN\n", "d 9.25 -5.8" ] }, "execution_count": 28, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.cumsum()" ] }, { "cell_type": "code", "execution_count": 29, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
onetwo
a1.4NaN
b8.5NaN
cNaNNaN
dNaNNaN
\n", "
" ], "text/plain": [ " one two\n", "a 1.4 NaN\n", "b 8.5 NaN\n", "c NaN NaN\n", "d NaN NaN" ] }, "execution_count": 29, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.cumsum(skipna=False)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "* `describe()`: 요약 통계 보여주기" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "수치형 데이터의 경우 평균값, 표준편차, 사분위수 등의 통계 정보를 요약해서 보여준다." ] }, { "cell_type": "code", "execution_count": 30, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
onetwo
count3.0000002.000000
mean3.083333-2.900000
std3.4936852.262742
min0.750000-4.500000
25%1.075000-3.700000
50%1.400000-2.900000
75%4.250000-2.100000
max7.100000-1.300000
\n", "
" ], "text/plain": [ " one two\n", "count 3.000000 2.000000\n", "mean 3.083333 -2.900000\n", "std 3.493685 2.262742\n", "min 0.750000 -4.500000\n", "25% 1.075000 -3.700000\n", "50% 1.400000 -2.900000\n", "75% 4.250000 -2.100000\n", "max 7.100000 -1.300000" ] }, "execution_count": 30, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.describe()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 상관관계와 공분산" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "금융 사이트에서 구한 4 개 회사의 주가(price)와 거래량(volume)을 담고 있는 두 개의 데이터를 이용하여\n", "상관계수와 공분산을 계산해본다.\n", "이를 위해 먼저 바이너리 파일 두 개를 다운로드해서 지정된 하위 디렉토리에 저장한다." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "* 파일 저장 디렉토리 지정 및 생성" ] }, { "cell_type": "code", "execution_count": 31, "metadata": {}, "outputs": [], "source": [ "from pathlib import Path\n", "\n", "data_path = Path() / \"examples\"\n", "\n", "data_path.mkdir(parents=True, exist_ok=True)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "* 특정 서버에서 파일 다운로드 함수" ] }, { "cell_type": "code", "execution_count": 32, "metadata": {}, "outputs": [], "source": [ "import requests\n", "\n", "# 파일 서버 기본 주소\n", "base_url = \"https://raw.githubusercontent.com/codingalzi/datapy/master/jupyter-book/examples/\"\n", " \n", "def myWget(filename):\n", " # 다운로드 대상 파일 경로\n", " file_url = base_url + filename\n", " \n", " # 저장 경로와 파일명\n", " target_path = data_path / filename\n", "\n", " data = requests.get(file_url)\n", " \n", " with open(target_path, 'wb') as f:\n", " f.write(data.content)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "두 개의 픽클 파일 다운로드한다.\n", "- pkl 파일: 판다스에서 제공하는 객체를 `to_pickle()` 메서드를 이용하여 \n", " 컴퓨터에 파일로 저장할 때 사용되는 바이너리 파일." ] }, { "cell_type": "code", "execution_count": 33, "metadata": {}, "outputs": [], "source": [ "myWget(\"yahoo_price.pkl\")" ] }, { "cell_type": "code", "execution_count": 34, "metadata": {}, "outputs": [], "source": [ "myWget(\"yahoo_volume.pkl\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "다운로드한 두 개의 데이터를 불러온다.\n", "\n", "- `read_pickle()`: 저장된 pkl 파일을 파이썬으로 불러오는 함수" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "아래 코드는 일별 주가 데이터를 불러온다.\n", "2010년 1월 4일부터 2016년 10월 21일까지의 데이터 1714개를 담고 있다." ] }, { "cell_type": "code", "execution_count": 35, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
AAPLGOOGIBMMSFT
Date
2010-01-0427.990226313.062468113.30453625.884104
2010-01-0528.038618311.683844111.93582225.892466
2010-01-0627.592626303.826685111.20868325.733566
2010-01-0727.541619296.753749110.82373225.465944
2010-01-0827.724725300.709808111.93582225.641571
...............
2016-10-17117.550003779.960022154.77000457.220001
2016-10-18117.470001795.260010150.72000157.660000
2016-10-19117.120003801.500000151.25999557.529999
2016-10-20117.059998796.969971151.52000457.250000
2016-10-21116.599998799.369995149.63000559.660000
\n", "

1714 rows × 4 columns

\n", "
" ], "text/plain": [ " AAPL GOOG IBM MSFT\n", "Date \n", "2010-01-04 27.990226 313.062468 113.304536 25.884104\n", "2010-01-05 28.038618 311.683844 111.935822 25.892466\n", "2010-01-06 27.592626 303.826685 111.208683 25.733566\n", "2010-01-07 27.541619 296.753749 110.823732 25.465944\n", "2010-01-08 27.724725 300.709808 111.935822 25.641571\n", "... ... ... ... ...\n", "2016-10-17 117.550003 779.960022 154.770004 57.220001\n", "2016-10-18 117.470001 795.260010 150.720001 57.660000\n", "2016-10-19 117.120003 801.500000 151.259995 57.529999\n", "2016-10-20 117.059998 796.969971 151.520004 57.250000\n", "2016-10-21 116.599998 799.369995 149.630005 59.660000\n", "\n", "[1714 rows x 4 columns]" ] }, "execution_count": 35, "metadata": {}, "output_type": "execute_result" } ], "source": [ "price = pd.read_pickle('examples/yahoo_price.pkl')\n", "price" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "아래 코드는 동일 회사, 동일 날짜의 1일 거래량(volume) 담고 있는 데이터를 불러온다." ] }, { "cell_type": "code", "execution_count": 36, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
AAPLGOOGIBMMSFT
Date
2010-01-041234324003927000615530038409100
2010-01-051504762006031900684140049749600
2010-01-061380400007987100560530058182400
2010-01-0711928280012876600584060050559700
2010-01-081119027009483900419720051197400
...............
2016-10-17236249001089500589040023830000
2016-10-182455350019956001277060019149500
2016-10-1920034600116600463290022878400
2016-10-20241258001734200402310049455600
2016-10-21223848001260500440190079974200
\n", "

1714 rows × 4 columns

\n", "
" ], "text/plain": [ " AAPL GOOG IBM MSFT\n", "Date \n", "2010-01-04 123432400 3927000 6155300 38409100\n", "2010-01-05 150476200 6031900 6841400 49749600\n", "2010-01-06 138040000 7987100 5605300 58182400\n", "2010-01-07 119282800 12876600 5840600 50559700\n", "2010-01-08 111902700 9483900 4197200 51197400\n", "... ... ... ... ...\n", "2016-10-17 23624900 1089500 5890400 23830000\n", "2016-10-18 24553500 1995600 12770600 19149500\n", "2016-10-19 20034600 116600 4632900 22878400\n", "2016-10-20 24125800 1734200 4023100 49455600\n", "2016-10-21 22384800 1260500 4401900 79974200\n", "\n", "[1714 rows x 4 columns]" ] }, "execution_count": 36, "metadata": {}, "output_type": "execute_result" } ], "source": [ "volume = pd.read_pickle('examples/yahoo_volume.pkl')\n", "volume" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "주가의 일단위 변화율을 알아보기 위해 퍼센트 변화율을 확인해보자.\n", "\n", "**참고:** 증권분야에서 return은 이익율을 의미한다." ] }, { "cell_type": "code", "execution_count": 37, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
AAPLGOOGIBMMSFT
Date
2016-10-17-0.0006800.0018370.002072-0.003483
2016-10-18-0.0006810.019616-0.0261680.007690
2016-10-19-0.0029790.0078460.003583-0.002255
2016-10-20-0.000512-0.0056520.001719-0.004867
2016-10-21-0.0039300.003011-0.0124740.042096
\n", "
" ], "text/plain": [ " AAPL GOOG IBM MSFT\n", "Date \n", "2016-10-17 -0.000680 0.001837 0.002072 -0.003483\n", "2016-10-18 -0.000681 0.019616 -0.026168 0.007690\n", "2016-10-19 -0.002979 0.007846 0.003583 -0.002255\n", "2016-10-20 -0.000512 -0.005652 0.001719 -0.004867\n", "2016-10-21 -0.003930 0.003011 -0.012474 0.042096" ] }, "execution_count": 37, "metadata": {}, "output_type": "execute_result" } ], "source": [ "returns = price.pct_change()\n", "returns.tail()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**`corr()`/`cov()` 메서드**" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "상관계수와 공분산 모두 두 확률변수 사이의 선형관계를 보여주며\n", "차이점은 다음과 같다.\n", "\n", "- 공분산: 두 확률변수 $X, Y$ 사이의 선형관계를 계량화 함. \n", " 양수/음수 여부에 따라 양 또는 음의 선형관계이며,\n", " 절댓값이 클 수록 강한 선형관계임.\n", " 다만, 사용되는 확률변수의 척도(scale)에 많은 영향을 받음.\n", " 따라서 보통 정규화한 값인 상관계수를 사용함.\n", "\n", "$$\n", "\\begin{align*}\n", "Cov(X, Y) & = E((X-\\mu_X)(Y-\\mu_Y))\\\\[2ex]\n", "\\mu_X & = E(X) = \\dfrac{\\sum X}{n}\\\\[1.5ex]\n", "\\mu_Y & = E(Y) = \\dfrac{\\sum Y}{n}\n", "\\end{align*}\n", "$$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- 상관계수: 두 확률변수 사이의 선형관계를 -1과 1 사이의 값으로 표현.\n", " 양수/음수 여부에 따라 양 또는 음의 선형관계이며,\n", " 절댓값이 1에 가까울 수록 강한 선형관계임.\n", "\n", "$$\n", "\\begin{align*}\n", "\\rho & = \\frac{Cov(X, Y)}{\\sigma_X\\cdot \\sigma_Y}\\\\[2ex]\n", "\\sigma_X & = \\sqrt{Var(X)}\\\\[1.5ex]\n", "\\sigma_X & = \\sqrt{Var(X)}\\\\[1.5ex]\n", "Var(X) & = \\dfrac{\\sum (X-\\mu_X)^2}{n}\\\\[1.5ex]\n", "Var(Y) & = \\dfrac{\\sum (X-\\mu_Y)^2}{n}\n", "\\end{align*}\n", "$$ " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "'MSFT'와 'IBM' 사이의 상관계수는 다음과 같다." ] }, { "cell_type": "code", "execution_count": 38, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.49976361144151144" ] }, "execution_count": 38, "metadata": {}, "output_type": "execute_result" } ], "source": [ "returns['MSFT'].corr(returns['IBM'])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "'MSFT'와 'IBM' 사이의 공분산은 다음과 같다." ] }, { "cell_type": "code", "execution_count": 39, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "8.870655479703546e-05" ] }, "execution_count": 39, "metadata": {}, "output_type": "execute_result" } ], "source": [ "returns['MSFT'].cov(returns['IBM'])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "전체 회사를 대상으로 하는 상관계수와 공분산을 계산할 수도 있다." ] }, { "cell_type": "code", "execution_count": 40, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
AAPLGOOGIBMMSFT
AAPL1.0000000.4079190.3868170.389695
GOOG0.4079191.0000000.4050990.465919
IBM0.3868170.4050991.0000000.499764
MSFT0.3896950.4659190.4997641.000000
\n", "
" ], "text/plain": [ " AAPL GOOG IBM MSFT\n", "AAPL 1.000000 0.407919 0.386817 0.389695\n", "GOOG 0.407919 1.000000 0.405099 0.465919\n", "IBM 0.386817 0.405099 1.000000 0.499764\n", "MSFT 0.389695 0.465919 0.499764 1.000000" ] }, "execution_count": 40, "metadata": {}, "output_type": "execute_result" } ], "source": [ "returns.corr()" ] }, { "cell_type": "code", "execution_count": 41, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
AAPLGOOGIBMMSFT
AAPL0.0002770.0001070.0000780.000095
GOOG0.0001070.0002510.0000780.000108
IBM0.0000780.0000780.0001460.000089
MSFT0.0000950.0001080.0000890.000215
\n", "
" ], "text/plain": [ " AAPL GOOG IBM MSFT\n", "AAPL 0.000277 0.000107 0.000078 0.000095\n", "GOOG 0.000107 0.000251 0.000078 0.000108\n", "IBM 0.000078 0.000078 0.000146 0.000089\n", "MSFT 0.000095 0.000108 0.000089 0.000215" ] }, "execution_count": 41, "metadata": {}, "output_type": "execute_result" } ], "source": [ "returns.cov()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 중복과 빈도" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**`unique()` 메서드**" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "시리즈에서 사용된 값을 중복 없이 확인하려면 `unique()` 메서드를 이용한다.\n", "`set()` 함수와 유사하게 작동하며, 넘파이 어레이를 반환한다." ] }, { "cell_type": "code", "execution_count": 42, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 c\n", "1 a\n", "2 d\n", "3 a\n", "4 a\n", "5 b\n", "6 b\n", "7 c\n", "8 c\n", "dtype: object" ] }, "execution_count": 42, "metadata": {}, "output_type": "execute_result" } ], "source": [ "obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])\n", "obj" ] }, { "cell_type": "code", "execution_count": 43, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array(['c', 'a', 'd', 'b'], dtype=object)" ] }, "execution_count": 43, "metadata": {}, "output_type": "execute_result" } ], "source": [ "uniques = obj.unique()\n", "uniques" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**`value_counts()` 메서드**" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "값들의 빈도수를 확인하기 위해 사용한다." ] }, { "cell_type": "code", "execution_count": 44, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "c 3\n", "a 3\n", "b 2\n", "d 1\n", "Name: count, dtype: int64" ] }, "execution_count": 44, "metadata": {}, "output_type": "execute_result" } ], "source": [ "obj.value_counts()" ] }, { "cell_type": "markdown", "metadata": { "id": "z1ru7qoX0Nmq" }, "source": [ "## 실전 예제: 붓꽃 데이터셋 분석" ] }, { "cell_type": "markdown", "metadata": { "id": "PuQD7FBI0Nmq" }, "source": [ "아래 링크에 아이리스(붓꽃) 데이터(`iris.data`)가 저장되어 있다." ] }, { "cell_type": "code", "execution_count": 45, "metadata": { "id": "LUVIDcz10Nmq" }, "outputs": [], "source": [ "url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'" ] }, { "cell_type": "markdown", "metadata": { "id": "PuQD7FBI0Nmq" }, "source": [ "`iris.data` 파일에는 아래 형식의 데이터가 150개 들어 있다. \n", "\n", "```python\n", "5.1,3.5,1.4,0.2,Iris-setosa\n", "4.9,3.0,1.4,0.2,Iris-setosa\n", "4.7,3.2,1.3,0.2,Iris-setosa\n", "4.6,3.1,1.5,0.2,Iris-setosa\n", "5.0,3.6,1.4,0.2,Iris-setosa\n", "...\n", "```\n", "\n", "포함된 데이터 특성들 사이의 구분자, \n", "즉 열 구분자는 쉼표가 사용되었으며 각 열의 라벨은 지정되어 있지 않다.\n", "따라서 판다스의 `read_csv()` 함수의 인자를 아래처럼 지정해서 해당 파일을\n", "데이터프레임으로 불러온다." ] }, { "cell_type": "code", "execution_count": 46, "metadata": { "id": "LUVIDcz10Nmq" }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
01234
05.13.51.40.2Iris-setosa
14.93.01.40.2Iris-setosa
24.73.21.30.2Iris-setosa
34.63.11.50.2Iris-setosa
45.03.61.40.2Iris-setosa
..................
1456.73.05.22.3Iris-virginica
1466.32.55.01.9Iris-virginica
1476.53.05.22.0Iris-virginica
1486.23.45.42.3Iris-virginica
1495.93.05.11.8Iris-virginica
\n", "

150 rows × 5 columns

\n", "
" ], "text/plain": [ " 0 1 2 3 4\n", "0 5.1 3.5 1.4 0.2 Iris-setosa\n", "1 4.9 3.0 1.4 0.2 Iris-setosa\n", "2 4.7 3.2 1.3 0.2 Iris-setosa\n", "3 4.6 3.1 1.5 0.2 Iris-setosa\n", "4 5.0 3.6 1.4 0.2 Iris-setosa\n", ".. ... ... ... ... ...\n", "145 6.7 3.0 5.2 2.3 Iris-virginica\n", "146 6.3 2.5 5.0 1.9 Iris-virginica\n", "147 6.5 3.0 5.2 2.0 Iris-virginica\n", "148 6.2 3.4 5.4 2.3 Iris-virginica\n", "149 5.9 3.0 5.1 1.8 Iris-virginica\n", "\n", "[150 rows x 5 columns]" ] }, "execution_count": 46, "metadata": {}, "output_type": "execute_result" } ], "source": [ "iris = pd.read_csv(url, sep=',', header=None)\n", "iris" ] }, { "cell_type": "markdown", "metadata": { "id": "2KCBBeMr0Nmq" }, "source": [ "하나의 데이터에 사용된 값들은 하나의 아이리스(붓꽃)에 대한 꽃잎, 꽃받침과 관련된 특성(features)과 품종을 나타내며,\n", "보다 구체적으로 아래 순서를 따른다.\n", "\n", "```\n", "꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비, 품종\n", "```\n", "\n", "열 라벨을 언급한대로 수정한다." ] }, { "cell_type": "code", "execution_count": 47, "metadata": {}, "outputs": [], "source": [ "columns = ['꽃받침길이', '꽃받침너비', '꽃잎길이', '꽃잎너비', '품종']" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "열 라벨의 영문명은 다음과 같다." ] }, { "cell_type": "code", "execution_count": 48, "metadata": {}, "outputs": [], "source": [ "columns_eng = ['Sepal length', 'Sepal width', 'Petal length', 'Petal width', 'Variety']" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "열 라벨을 한글명으로 지정해보자." ] }, { "cell_type": "code", "execution_count": 49, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
꽃받침길이꽃받침너비꽃잎길이꽃잎너비품종
05.13.51.40.2Iris-setosa
14.93.01.40.2Iris-setosa
24.73.21.30.2Iris-setosa
34.63.11.50.2Iris-setosa
45.03.61.40.2Iris-setosa
..................
1456.73.05.22.3Iris-virginica
1466.32.55.01.9Iris-virginica
1476.53.05.22.0Iris-virginica
1486.23.45.42.3Iris-virginica
1495.93.05.11.8Iris-virginica
\n", "

150 rows × 5 columns

\n", "
" ], "text/plain": [ " 꽃받침길이 꽃받침너비 꽃잎길이 꽃잎너비 품종\n", "0 5.1 3.5 1.4 0.2 Iris-setosa\n", "1 4.9 3.0 1.4 0.2 Iris-setosa\n", "2 4.7 3.2 1.3 0.2 Iris-setosa\n", "3 4.6 3.1 1.5 0.2 Iris-setosa\n", "4 5.0 3.6 1.4 0.2 Iris-setosa\n", ".. ... ... ... ... ...\n", "145 6.7 3.0 5.2 2.3 Iris-virginica\n", "146 6.3 2.5 5.0 1.9 Iris-virginica\n", "147 6.5 3.0 5.2 2.0 Iris-virginica\n", "148 6.2 3.4 5.4 2.3 Iris-virginica\n", "149 5.9 3.0 5.1 1.8 Iris-virginica\n", "\n", "[150 rows x 5 columns]" ] }, "execution_count": 49, "metadata": {}, "output_type": "execute_result" } ], "source": [ "iris.columns = columns\n", "iris" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "포함된 5개의 특성(열)별 정보는 다음과 같다." ] }, { "cell_type": "code", "execution_count": 50, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "RangeIndex: 150 entries, 0 to 149\n", "Data columns (total 5 columns):\n", " # Column Non-Null Count Dtype \n", "--- ------ -------------- ----- \n", " 0 꽃받침길이 150 non-null float64\n", " 1 꽃받침너비 150 non-null float64\n", " 2 꽃잎길이 150 non-null float64\n", " 3 꽃잎너비 150 non-null float64\n", " 4 품종 150 non-null object \n", "dtypes: float64(4), object(1)\n", "memory usage: 6.0+ KB\n" ] } ], "source": [ "iris.info()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "수치형 특성들의 간략한 통계 정보는 다음과 같다.\n", "즉 품종 특성은 제외된다." ] }, { "cell_type": "code", "execution_count": 51, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
꽃받침길이꽃받침너비꽃잎길이꽃잎너비
count150.000000150.000000150.000000150.000000
mean5.8433333.0540003.7586671.198667
std0.8280660.4335941.7644200.763161
min4.3000002.0000001.0000000.100000
25%5.1000002.8000001.6000000.300000
50%5.8000003.0000004.3500001.300000
75%6.4000003.3000005.1000001.800000
max7.9000004.4000006.9000002.500000
\n", "
" ], "text/plain": [ " 꽃받침길이 꽃받침너비 꽃잎길이 꽃잎너비\n", "count 150.000000 150.000000 150.000000 150.000000\n", "mean 5.843333 3.054000 3.758667 1.198667\n", "std 0.828066 0.433594 1.764420 0.763161\n", "min 4.300000 2.000000 1.000000 0.100000\n", "25% 5.100000 2.800000 1.600000 0.300000\n", "50% 5.800000 3.000000 4.350000 1.300000\n", "75% 6.400000 3.300000 5.100000 1.800000\n", "max 7.900000 4.400000 6.900000 2.500000" ] }, "execution_count": 51, "metadata": {}, "output_type": "execute_result" } ], "source": [ "iris.describe()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "수치형 특성 각각의 의미는 아래 사진에서 확인할 수 있다." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "

" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**품종 확인**" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "품종은 다음과 같이 확인된다." ] }, { "cell_type": "code", "execution_count": 52, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)" ] }, "execution_count": 52, "metadata": {}, "output_type": "execute_result" } ], "source": [ "varieties = iris.품종.unique()\n", "varieties" ] }, { "cell_type": "markdown", "metadata": { "id": "GOjOv4pl0Nmr" }, "source": [ "150개의 데이터는 아래 세 개의 품종으로 구분된다.\n", "\n", "```\n", "'Iris-setosa', 'Iris-versicolor', 'Iris-virginica'\n", "```" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "

" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "품종별로 각각 50개의 데이터 샘플이 포함되어 있다." ] }, { "cell_type": "code", "execution_count": 53, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "품종\n", "Iris-setosa 50\n", "Iris-versicolor 50\n", "Iris-virginica 50\n", "Name: count, dtype: int64" ] }, "execution_count": 53, "metadata": {}, "output_type": "execute_result" } ], "source": [ "iris.품종.value_counts()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "품종명을 단순화시키기 위해 유니버설 함수를 정의한다." ] }, { "cell_type": "code", "execution_count": 54, "metadata": {}, "outputs": [], "source": [ "shortening = np.vectorize(lambda x: x.replace('Iris-', '').capitalize())" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`shortening()` 함수는 `Iris-` 접두사를 제거한 후에 대문자로 시작하는 품종명을 생성한다." ] }, { "cell_type": "code", "execution_count": 55, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array(['Setosa', 'Versicolor', 'Virginica'], dtype='\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
꽃받침길이꽃받침너비꽃잎길이꽃잎너비품종
05.13.51.40.20
14.93.01.40.20
24.73.21.30.20
34.63.11.50.20
45.03.61.40.20
..................
1456.73.05.22.32
1466.32.55.01.92
1476.53.05.22.02
1486.23.45.42.32
1495.93.05.11.82
\n", "

150 rows × 5 columns

\n", "" ], "text/plain": [ " 꽃받침길이 꽃받침너비 꽃잎길이 꽃잎너비 품종\n", "0 5.1 3.5 1.4 0.2 0\n", "1 4.9 3.0 1.4 0.2 0\n", "2 4.7 3.2 1.3 0.2 0\n", "3 4.6 3.1 1.5 0.2 0\n", "4 5.0 3.6 1.4 0.2 0\n", ".. ... ... ... ... ..\n", "145 6.7 3.0 5.2 2.3 2\n", "146 6.3 2.5 5.0 1.9 2\n", "147 6.5 3.0 5.2 2.0 2\n", "148 6.2 3.4 5.4 2.3 2\n", "149 5.9 3.0 5.1 1.8 2\n", "\n", "[150 rows x 5 columns]" ] }, "execution_count": 58, "metadata": {}, "output_type": "execute_result" } ], "source": [ "iris" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**산점도**" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "아래 코드는 꽃받침의 길이와 너비를 이용한 산점도를 그린다." ] }, { "cell_type": "code", "execution_count": 59, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "import matplotlib.pyplot as plt\n", "\n", "scatter = plt.scatter(iris.iloc[:, 0], iris.iloc[:, 1], c=iris.iloc[:, 4])\n", "plt.xlabel(columns_eng[0])\n", "plt.ylabel(columns_eng[1])\n", "\n", "handles, colors = scatter.legend_elements()\n", "\n", "plt.legend(handles, colors)\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "범례에 사용되는 라벨을 숫자가 아닌 품종명으로 변경하려면 다음과 같이 `varieties`를 이용한다." ] }, { "cell_type": "code", "execution_count": 60, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "import matplotlib.pyplot as plt\n", "\n", "scatter = plt.scatter(iris.iloc[:, 0], iris.iloc[:, 1], c=iris.iloc[:, 4])\n", "plt.xlabel(columns_eng[0])\n", "plt.ylabel(columns_eng[1])\n", "\n", "handles, _ = scatter.legend_elements()\n", "\n", "plt.legend(handles, varieties)\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "반면에 아래 코드는 꽃잎의 길이와 너비를 이용한 산점도를 그린다." ] }, { "cell_type": "code", "execution_count": 61, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "import matplotlib.pyplot as plt\n", "\n", "scatter = plt.scatter(iris.iloc[:, 2], iris.iloc[:, 3], c=iris.iloc[:, 4])\n", "plt.xlabel(columns_eng[2])\n", "plt.ylabel(columns_eng[3])\n", "\n", "handles, _ = scatter.legend_elements()\n", "\n", "plt.legend(handles, varieties)\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": { "id": "NEeBCuW90Nmt" }, "source": [ "**예제 1**\n", "\n", "꽃받침 길이(0번 열)와 꽃잎 길이(2번 열) 사이의 피어슨 상관계수를 계산하라." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "답:" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "데이터프레임의 `corr()` 메서드는 모든 특성들 사이의 피어슨 상관계수로 이루어진 데이터프레임을 반환환다." ] }, { "cell_type": "code", "execution_count": 62, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 172 }, "id": "4scOJUVUl1Pa", "outputId": "b237169c-96a4-4cb2-99c8-dae2b76270cb" }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
꽃받침길이꽃받침너비꽃잎길이꽃잎너비
꽃받침길이1.000000-0.1093690.8717540.817954
꽃받침너비-0.1093691.000000-0.420516-0.356544
꽃잎길이0.871754-0.4205161.0000000.962757
꽃잎너비0.817954-0.3565440.9627571.000000
\n", "
" ], "text/plain": [ " 꽃받침길이 꽃받침너비 꽃잎길이 꽃잎너비\n", "꽃받침길이 1.000000 -0.109369 0.871754 0.817954\n", "꽃받침너비 -0.109369 1.000000 -0.420516 -0.356544\n", "꽃잎길이 0.871754 -0.420516 1.000000 0.962757\n", "꽃잎너비 0.817954 -0.356544 0.962757 1.000000" ] }, "execution_count": 62, "metadata": {}, "output_type": "execute_result" } ], "source": [ "iris_corr = iris.iloc[:, :4].corr()\n", "iris_corr" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "따라서 '꽃받침길이'와 다른 특성들 사이의 상관계수를 역순으로 정렬하면 다음과 같다." ] }, { "cell_type": "code", "execution_count": 63, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "k5l78GM1mfz5", "outputId": "1204d1f5-8e14-4201-8844-be45d84ab5bc" }, "outputs": [ { "data": { "text/plain": [ "꽃받침길이 1.000000\n", "꽃잎길이 0.871754\n", "꽃잎너비 0.817954\n", "꽃받침너비 -0.109369\n", "Name: 꽃받침길이, dtype: float64" ] }, "execution_count": 63, "metadata": {}, "output_type": "execute_result" } ], "source": [ "iris_corr['꽃받침길이'].sort_values(ascending=False)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "따라서 '꽃받침길이'와 '꽃잎길이' 사이의 상관계수가 가장 높다." ] }, { "cell_type": "markdown", "metadata": { "id": "sPb0bX1F0Nmt" }, "source": [ "**예제 2**\n", "\n", "버시컬러 품종에 해당하는 데이터만 `iris`로부터 추출하라. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "답:" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "버시컬러 품종은 1에 해당하기에 다음 부울 마스크를 이용한다." ] }, { "cell_type": "code", "execution_count": 64, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "Fvq7ZIuV0Nmt", "outputId": "7ef7353b-0ae5-4c5e-ac32-13fce5dc6bab" }, "outputs": [ { "data": { "text/plain": [ "0 False\n", "1 False\n", "2 False\n", "3 False\n", "4 False\n", " ... \n", "145 False\n", "146 False\n", "147 False\n", "148 False\n", "149 False\n", "Name: 품종, Length: 150, dtype: bool" ] }, "execution_count": 64, "metadata": {}, "output_type": "execute_result" } ], "source": [ "mask = iris.iloc[:, -1] == 1\n", "mask" ] }, { "cell_type": "code", "execution_count": 65, "metadata": { "id": "cdOOPTOqoBqk" }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
꽃받침길이꽃받침너비꽃잎길이꽃잎너비품종
507.03.24.71.41
516.43.24.51.51
526.93.14.91.51
535.52.34.01.31
546.52.84.61.51
..................
955.73.04.21.21
965.72.94.21.31
976.22.94.31.31
985.12.53.01.11
995.72.84.11.31
\n", "

50 rows × 5 columns

\n", "
" ], "text/plain": [ " 꽃받침길이 꽃받침너비 꽃잎길이 꽃잎너비 품종\n", "50 7.0 3.2 4.7 1.4 1\n", "51 6.4 3.2 4.5 1.5 1\n", "52 6.9 3.1 4.9 1.5 1\n", "53 5.5 2.3 4.0 1.3 1\n", "54 6.5 2.8 4.6 1.5 1\n", ".. ... ... ... ... ..\n", "95 5.7 3.0 4.2 1.2 1\n", "96 5.7 2.9 4.2 1.3 1\n", "97 6.2 2.9 4.3 1.3 1\n", "98 5.1 2.5 3.0 1.1 1\n", "99 5.7 2.8 4.1 1.3 1\n", "\n", "[50 rows x 5 columns]" ] }, "execution_count": 65, "metadata": {}, "output_type": "execute_result" } ], "source": [ "iris_versicolor = iris[mask]\n", "iris_versicolor" ] }, { "cell_type": "markdown", "metadata": { "id": "kTpmu5nd0Nmu" }, "source": [ "**예제 3**\n", "\n", "각 특성별 평균값, 중위수, 표준편차를 구하라." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "답:" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "수치형 데이터의 평균값, 중위수, 표준편차는 `describe()` 메서드로 확인된다.\n", "중위수는 `50%` 라벨의 행에 위치한다." ] }, { "cell_type": "code", "execution_count": 66, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
꽃받침길이꽃받침너비꽃잎길이꽃잎너비
count150.000000150.000000150.000000150.000000
mean5.8433333.0540003.7586671.198667
std0.8280660.4335941.7644200.763161
min4.3000002.0000001.0000000.100000
25%5.1000002.8000001.6000000.300000
50%5.8000003.0000004.3500001.300000
75%6.4000003.3000005.1000001.800000
max7.9000004.4000006.9000002.500000
\n", "
" ], "text/plain": [ " 꽃받침길이 꽃받침너비 꽃잎길이 꽃잎너비\n", "count 150.000000 150.000000 150.000000 150.000000\n", "mean 5.843333 3.054000 3.758667 1.198667\n", "std 0.828066 0.433594 1.764420 0.763161\n", "min 4.300000 2.000000 1.000000 0.100000\n", "25% 5.100000 2.800000 1.600000 0.300000\n", "50% 5.800000 3.000000 4.350000 1.300000\n", "75% 6.400000 3.300000 5.100000 1.800000\n", "max 7.900000 4.400000 6.900000 2.500000" ] }, "execution_count": 66, "metadata": {}, "output_type": "execute_result" } ], "source": [ "iris.describe()" ] }, { "cell_type": "markdown", "metadata": { "id": "rxi1lkS20Nmu" }, "source": [ "**예제 4**\n", "\n", "세 개의 품종 각각에 대해 꽃받침너비(1번 열)의 평균값을 계산하여 아래 모양의 \n", "시리즈(Series)를 가리키는 `iris_mean_sepal_width` 변수를 선언하라.\n", "\n", "| | |\n", "| ---: | ---: |\n", "| Iris-setosa | 3.418 |\n", "| Iris-versicolor | 2.770 |\n", "| Iris-virginica | 2.974 |\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "답:" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "아래 코드는 품종별로 꽃받침너비의 평균값을 계산해서 리스트에 추가한다." ] }, { "cell_type": "code", "execution_count": 67, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "3wPKs76A0Nmu", "outputId": "8e48a3c1-b61f-442a-9a8d-b890917dfeec" }, "outputs": [], "source": [ "iris_mean_sepal_width = []\n", "\n", "for variety in range(3):\n", " mask = iris.iloc[:, 4] == variety\n", " mean_0 = iris[mask]['꽃받침너비'].mean()\n", " iris_mean_sepal_width.append(mean_0)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "시리즈 생성을 위해 `index`와 `name` 키워드를 인자를 지정한다." ] }, { "cell_type": "code", "execution_count": 68, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "3wPKs76A0Nmu", "outputId": "8e48a3c1-b61f-442a-9a8d-b890917dfeec" }, "outputs": [ { "data": { "text/plain": [ "Setosa 3.418\n", "Versicolor 2.770\n", "Virginica 2.974\n", "Name: 평균꽃받침너비, dtype: float64" ] }, "execution_count": 68, "metadata": {}, "output_type": "execute_result" } ], "source": [ "iris_mean_sepal_width = pd.Series(iris_mean_sepal_width, index=varieties, name='평균꽃받침너비')\n", "iris_mean_sepal_width" ] }, { "cell_type": "markdown", "metadata": { "id": "gGi6px0z0Nmu" }, "source": [ "**예제 5** \n", "\n", "`iris`에 포함된 모든 수치형 특성을 정규화normalization를 이용하여 모두 0과 1사이의 값으로 변환하라. \n", "\n", "힌트: 정규화에 대한 설명은 [정규화/표준화](https://codingalzi.github.io/handson-ml3/end2end_ml_project.html?highlight=정규화#minmaxscaler-standardscaler)을 참고하라." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "답:" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "수치형 특성만을 가리키는 `iris_features`를 선언한다." ] }, { "cell_type": "code", "execution_count": 69, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
꽃받침길이꽃받침너비꽃잎길이꽃잎너비
05.13.51.40.2
14.93.01.40.2
24.73.21.30.2
34.63.11.50.2
45.03.61.40.2
...............
1456.73.05.22.3
1466.32.55.01.9
1476.53.05.22.0
1486.23.45.42.3
1495.93.05.11.8
\n", "

150 rows × 4 columns

\n", "
" ], "text/plain": [ " 꽃받침길이 꽃받침너비 꽃잎길이 꽃잎너비\n", "0 5.1 3.5 1.4 0.2\n", "1 4.9 3.0 1.4 0.2\n", "2 4.7 3.2 1.3 0.2\n", "3 4.6 3.1 1.5 0.2\n", "4 5.0 3.6 1.4 0.2\n", ".. ... ... ... ...\n", "145 6.7 3.0 5.2 2.3\n", "146 6.3 2.5 5.0 1.9\n", "147 6.5 3.0 5.2 2.0\n", "148 6.2 3.4 5.4 2.3\n", "149 5.9 3.0 5.1 1.8\n", "\n", "[150 rows x 4 columns]" ] }, "execution_count": 69, "metadata": {}, "output_type": "execute_result" } ], "source": [ "iris_features = iris.iloc[:, :4]\n", "iris_features" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "아니면 다음과 같이 `drop()` 메서드를 이용할 수도 있다." ] }, { "cell_type": "code", "execution_count": 70, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
꽃받침길이꽃받침너비꽃잎길이꽃잎너비
05.13.51.40.2
14.93.01.40.2
24.73.21.30.2
34.63.11.50.2
45.03.61.40.2
...............
1456.73.05.22.3
1466.32.55.01.9
1476.53.05.22.0
1486.23.45.42.3
1495.93.05.11.8
\n", "

150 rows × 4 columns

\n", "
" ], "text/plain": [ " 꽃받침길이 꽃받침너비 꽃잎길이 꽃잎너비\n", "0 5.1 3.5 1.4 0.2\n", "1 4.9 3.0 1.4 0.2\n", "2 4.7 3.2 1.3 0.2\n", "3 4.6 3.1 1.5 0.2\n", "4 5.0 3.6 1.4 0.2\n", ".. ... ... ... ...\n", "145 6.7 3.0 5.2 2.3\n", "146 6.3 2.5 5.0 1.9\n", "147 6.5 3.0 5.2 2.0\n", "148 6.2 3.4 5.4 2.3\n", "149 5.9 3.0 5.1 1.8\n", "\n", "[150 rows x 4 columns]" ] }, "execution_count": 70, "metadata": {}, "output_type": "execute_result" } ], "source": [ "iris_features = iris.drop('품종', axis=1)\n", "iris_features" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`min()`, `max()` 등의 데이터프레임 메서드는 기본적으로 축을 0으로 지정해서 열 단위로 작동한다." ] }, { "cell_type": "code", "execution_count": 71, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "-klhdFmvxJZb", "outputId": "e343c0f6-aa70-4335-e05f-885b5e251b97" }, "outputs": [ { "data": { "text/plain": [ "꽃받침길이 4.3\n", "꽃받침너비 2.0\n", "꽃잎길이 1.0\n", "꽃잎너비 0.1\n", "dtype: float64" ] }, "execution_count": 71, "metadata": {}, "output_type": "execute_result" } ], "source": [ "iris_features.min()" ] }, { "cell_type": "code", "execution_count": 72, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "-klhdFmvxJZb", "outputId": "e343c0f6-aa70-4335-e05f-885b5e251b97" }, "outputs": [ { "data": { "text/plain": [ "꽃받침길이 4.3\n", "꽃받침너비 2.0\n", "꽃잎길이 1.0\n", "꽃잎너비 0.1\n", "dtype: float64" ] }, "execution_count": 72, "metadata": {}, "output_type": "execute_result" } ], "source": [ "iris_features.min(axis=0)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "사칙연산을 활용하여 열별로 정규화된 데이터프레임을 다음과 같이 생성한다." ] }, { "cell_type": "code", "execution_count": 73, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 417 }, "id": "xv7fcbb60Nmu", "outputId": "1bcfe0a6-1d39-47c1-9821-560a0c057e93" }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
꽃받침길이꽃받침너비꽃잎길이꽃잎너비
00.2222220.6250000.0677970.041667
10.1666670.4166670.0677970.041667
20.1111110.5000000.0508470.041667
30.0833330.4583330.0847460.041667
40.1944440.6666670.0677970.041667
...............
1450.6666670.4166670.7118640.916667
1460.5555560.2083330.6779660.750000
1470.6111110.4166670.7118640.791667
1480.5277780.5833330.7457630.916667
1490.4444440.4166670.6949150.708333
\n", "

150 rows × 4 columns

\n", "
" ], "text/plain": [ " 꽃받침길이 꽃받침너비 꽃잎길이 꽃잎너비\n", "0 0.222222 0.625000 0.067797 0.041667\n", "1 0.166667 0.416667 0.067797 0.041667\n", "2 0.111111 0.500000 0.050847 0.041667\n", "3 0.083333 0.458333 0.084746 0.041667\n", "4 0.194444 0.666667 0.067797 0.041667\n", ".. ... ... ... ...\n", "145 0.666667 0.416667 0.711864 0.916667\n", "146 0.555556 0.208333 0.677966 0.750000\n", "147 0.611111 0.416667 0.711864 0.791667\n", "148 0.527778 0.583333 0.745763 0.916667\n", "149 0.444444 0.416667 0.694915 0.708333\n", "\n", "[150 rows x 4 columns]" ] }, "execution_count": 73, "metadata": {}, "output_type": "execute_result" } ], "source": [ "iris_normalized = (iris_features - iris_features.min())/(iris_features.max() - iris_features.min())\n", "\n", "iris_normalized" ] }, { "cell_type": "markdown", "metadata": { "id": "7JsHgv360Nmv" }, "source": [ "**예제 6**\n", "\n", "`iris`에 사용된 모든 값을 특성 별로 표준화standardization하라. \n", "\n", "힌트: 표준화에 대한 설명은 [정규화/표준화](https://codingalzi.github.io/handson-ml3/end2end_ml_project.html?highlight=표준화#minmaxscaler-standardscaler)을 참고하라." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "답:" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`mean()`, `std()` 메서드 또한 열별로 계산된다." ] }, { "cell_type": "code", "execution_count": 74, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "vzy5xziSyfCF", "outputId": "28c349cf-6967-4b94-a10b-c37bd370fb8e" }, "outputs": [ { "data": { "text/plain": [ "꽃받침길이 5.843333\n", "꽃받침너비 3.054000\n", "꽃잎길이 3.758667\n", "꽃잎너비 1.198667\n", "dtype: float64" ] }, "execution_count": 74, "metadata": {}, "output_type": "execute_result" } ], "source": [ "iris_features.mean()" ] }, { "cell_type": "code", "execution_count": 75, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "vzy5xziSyfCF", "outputId": "28c349cf-6967-4b94-a10b-c37bd370fb8e" }, "outputs": [ { "data": { "text/plain": [ "꽃받침길이 0.828066\n", "꽃받침너비 0.433594\n", "꽃잎길이 1.764420\n", "꽃잎너비 0.763161\n", "dtype: float64" ] }, "execution_count": 75, "metadata": {}, "output_type": "execute_result" } ], "source": [ "iris_features.std()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "사칙연산을 활용하여 열별로 표준화된 데이터프레임을 다음과 같이 생성한다." ] }, { "cell_type": "code", "execution_count": 76, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 203 }, "id": "q0lFBkNW0Nmv", "outputId": "7e103fbf-edaa-4276-f463-dec4f86a7a0a" }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
꽃받침길이꽃받침너비꽃잎길이꽃잎너비
0-0.8976741.028611-1.336794-1.308593
1-1.139200-0.124540-1.336794-1.308593
2-1.3807270.336720-1.393470-1.308593
3-1.5014900.106090-1.280118-1.308593
4-1.0184371.259242-1.336794-1.308593
\n", "
" ], "text/plain": [ " 꽃받침길이 꽃받침너비 꽃잎길이 꽃잎너비\n", "0 -0.897674 1.028611 -1.336794 -1.308593\n", "1 -1.139200 -0.124540 -1.336794 -1.308593\n", "2 -1.380727 0.336720 -1.393470 -1.308593\n", "3 -1.501490 0.106090 -1.280118 -1.308593\n", "4 -1.018437 1.259242 -1.336794 -1.308593" ] }, "execution_count": 76, "metadata": {}, "output_type": "execute_result" } ], "source": [ "iris_standardized = (iris_features - iris_features.mean()) / iris_features.std()\n", "\n", "iris_standardized[:5]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 연습문제 " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "참고: [(실습) 판다스 활용: 통계 기초](https://colab.research.google.com/github/codingalzi/datapy/blob/master/practices/practice-pandas_4.ipynb)" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.11.5" }, "vscode": { "interpreter": { "hash": "ad0f3c8a064f687cbf898a0868fd45ba1c7e928ac8a0404f7c241d812ddc1e76" } } }, "nbformat": 4, "nbformat_minor": 1 }