import pandas as pd
import numpy as np


np.random.seed(12345)
np.set_printoptions(precision=4, suppress=True)

import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))


PREVIOUS_MAX_ROWS = pd.options.display.max_rows # 원래 60이 기본.
pd.set_option("max_rows", 20)


df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
df


df.sum()

one    9.25
two   -5.80
dtype: float64


df.sum(skipna=False)

one   NaN
two   NaN
dtype: float64


df.sum(axis='columns')

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64


df['one']

a    1.40
b    7.10
c     NaN
d    0.75
Name: one, dtype: float64


df['one'].sum()

9.25


df.mean()

one    3.083333
two   -2.900000
dtype: float64


df.mean(axis='columns')

a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64


df.mean(skipna=False)

one   NaN
two   NaN
dtype: float64


df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64


df['one'].mean()

3.0833333333333335


df['one'].mean(skipna=False)

nan


df.std()

one    3.493685
two    2.262742
dtype: float64


df.std(axis='columns')

a         NaN
b    8.202439
c         NaN
d    1.449569
dtype: float64


df.std(skipna=False)

one   NaN
two   NaN
dtype: float64


df.std(axis='columns', skipna=False)

a         NaN
b    8.202439
c         NaN
d    1.449569
dtype: float64


df.idxmax()

one    b
two    d
dtype: object


df.idxmin(axis=1)

a    one
b    two
c    NaN
d    two
dtype: object


df.cumsum()


df.cumsum(skipna=False)


df.describe()


ser = pd.Series(['a', 'a', 'b', 'c'] * 2)
ser

0    a
1    a
2    b
3    c
4    a
5    a
6    b
7    c
dtype: object


ser.describe()

count     8
unique    3
top       a
freq      4
dtype: object


price = pd.read_pickle('examples/yahoo_price.pkl')
price


volume = pd.read_pickle('examples/yahoo_volume.pkl')
volume


returns = price.pct_change()
returns.tail()


returns['MSFT'].corr(returns['IBM'])

0.4997636114415114


returns['MSFT'].cov(returns['IBM'])

8.870655479703546e-05


returns.MSFT.corr(returns.IBM)

0.4997636114415114


returns.corr()


returns.cov()


returns.corrwith(returns.IBM)

AAPL    0.386817
GOOG    0.405099
IBM     1.000000
MSFT    0.499764
dtype: float64


returns.corrwith(volume)

AAPL   -0.075565
GOOG   -0.007067
IBM    -0.204849
MSFT   -0.092950
dtype: float64


obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object


uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)


obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64


pd.value_counts(obj.values, sort=False)

a    3
c    3
d    1
b    2
dtype: int64


# 아이리스(붓꽃) 데이터 불러오기
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='str')


type(iris)

numpy.ndarray


iris.shape

(150, 5)


iris[:5]

array([['5.1', '3.5', '1.4', '0.2', 'Iris-setosa'],
       ['4.9', '3.0', '1.4', '0.2', 'Iris-setosa'],
       ['4.7', '3.2', '1.3', '0.2', 'Iris-setosa'],
       ['4.6', '3.1', '1.5', '0.2', 'Iris-setosa'],
       ['5.0', '3.6', '1.4', '0.2', 'Iris-setosa']], dtype='<U15')


iris_features = iris[:,:4].astype('f8')
iris_labels = iris[:, 4]


columns = ['꽃받침길이', '꽃받침너비', '꽃잎길이', '꽃잎너비']
iris_features = pd.DataFrame(iris_features, columns=columns)
iris_features[:5]


iris_labels = pd.Series(iris_labels)
iris_labels

0         Iris-setosa
1         Iris-setosa
2         Iris-setosa
3         Iris-setosa
4         Iris-setosa
            ...      
145    Iris-virginica
146    Iris-virginica
147    Iris-virginica
148    Iris-virginica
149    Iris-virginica
Length: 150, dtype: object


iris_labels[::50]

0          Iris-setosa
50     Iris-versicolor
100     Iris-virginica
dtype: object


iris_labels[:5]

0    Iris-setosa
1    Iris-setosa
2    Iris-setosa
3    Iris-setosa
4    Iris-setosa
dtype: object


iris_labels[50:55]

50    Iris-versicolor
51    Iris-versicolor
52    Iris-versicolor
53    Iris-versicolor
54    Iris-versicolor
dtype: object


iris_labels[100:105]

100    Iris-virginica
101    Iris-virginica
102    Iris-virginica
103    Iris-virginica
104    Iris-virginica
dtype: object


mask = (iris_features.꽃잎길이>1.5) | (iris_features.꽃받침길이<5.0)
mask

0      False
1       True
2       True
3       True
4      False
       ...  
145     True
146     True
147     True
148     True
149     True
Length: 150, dtype: bool


mask.sum()

129


iris_features[mask]


iris_corr = iris_features.corr()
iris_corr


iris_corr['꽃받침길이'].sort_values(ascending=False)

꽃받침길이    1.000000
꽃잎길이     0.871754
꽃잎너비     0.817954
꽃받침너비   -0.109369
Name: 꽃받침길이, dtype: float64


iris_corr['꽃받침길이']['꽃잎길이']

0.8717541573048719


# pass와 None을 각각 적절한 코드와 표현식으로 대체하라.

scaled = (3.14 * iris_features['꽃잎길이'] * iris_features['꽃받침길이']**2) / 3
length_property1 = pd.Series(scaled, name='길이특성1')


length_property1

0       38.113320
1       35.182653
2       30.057127
3       33.221200
4       36.633333
          ...    
145    244.321307
146    207.711000
147    229.952667
148    217.262880
149    185.815780
Name: 길이특성1, Length: 150, dtype: float64


iris_features_added = pd.concat([iris_features, length_property1], axis=1)

assert iris_features_added.shape == (150, 5)
iris_features_added


# None을 적절한 부울 표현식으로 대체하라.

mask = iris_labels == 'Iris-versicolor'
mask

0      False
1      False
2      False
3      False
4      False
       ...  
145    False
146    False
147    False
148    False
149    False
Length: 150, dtype: bool


mask.sum()

50


iris_versicolor = iris_features[mask]
iris_versicolor.head()


iris_versicolor.tail()


iris_mean = iris_features.mean()
iris_mean

꽃받침길이    5.843333
꽃받침너비    3.054000
꽃잎길이     3.758667
꽃잎너비     1.198667
dtype: float64


iris_mean = iris_features.mean(axis=0)
iris_mean

꽃받침길이    5.843333
꽃받침너비    3.054000
꽃잎길이     3.758667
꽃잎너비     1.198667
dtype: float64


iris_median = iris_features.median()
iris_median

꽃받침길이    5.80
꽃받침너비    3.00
꽃잎길이     4.35
꽃잎너비     1.30
dtype: float64


iris_std = iris_features.std()
iris_std

꽃받침길이    0.828066
꽃받침너비    0.433594
꽃잎길이     1.764420
꽃잎너비     0.763161
dtype: float64


average_methods = [pd.DataFrame.mean, pd.DataFrame.median, pd.DataFrame.std]

for fun in average_methods:
    print(fun(iris_features)['꽃받침길이'], end=' ')

5.843333333333335 5.8 0.8280661279778629


kinds = list(set(iris_labels))
kinds.sort()                      # 이름 순서를 맞추기 위해

iris_mean_sepal_width = []

for kind in kinds:
    mask = iris_labels == kind
    mean_0 = iris_features[mask].mean()['꽃받침너비']
    iris_mean_sepal_width.append(mean_0)
    
pd.DataFrame(iris_mean_sepal_width, index=kinds, columns=['평균 꽃받침 너비'])


kinds = list(set(iris_labels))
kinds.sort()                      # 이름 순서를 맞추기 위해

iris_mean_sepal_width = []

for kind in kinds:
    mask = iris_labels == kind
    mean_0 = iris_features[mask].mean()['꽃받침너비']
    iris_mean_sepal_width.append(mean_0)
    
pd.Series(iris_mean_sepal_width, index=kinds, name='평균 꽃받침 너비')

Iris-setosa        3.418
Iris-versicolor    2.770
Iris-virginica     2.974
Name: 평균 꽃받침 너비, dtype: float64


iris_features[:5]


iris_features.min()

꽃받침길이    4.3
꽃받침너비    2.0
꽃잎길이     1.0
꽃잎너비     0.1
dtype: float64


iris_features.min(axis=0)

꽃받침길이    4.3
꽃받침너비    2.0
꽃잎길이     1.0
꽃잎너비     0.1
dtype: float64


iris_features_normalized = (iris_features - iris_features.min())/(iris_features.max() - iris_features.min())

iris_features_normalized


iris_features_normalized.꽃잎너비

0      0.041667
1      0.041667
2      0.041667
3      0.041667
4      0.041667
         ...   
145    0.916667
146    0.750000
147    0.791667
148    0.916667
149    0.708333
Name: 꽃잎너비, Length: 150, dtype: float64


iris_features.mean()

꽃받침길이    5.843333
꽃받침너비    3.054000
꽃잎길이     3.758667
꽃잎너비     1.198667
dtype: float64


iris_features.std()

꽃받침길이    0.828066
꽃받침너비    0.433594
꽃잎길이     1.764420
꽃잎너비     0.763161
dtype: float64


# None을 적절한 부울 표현식으로 대체하라.

iris_features_standardized = (iris_features - iris_features.mean()) / iris_features.std()

iris_features_standardized[:5]

	AAPL	GOOG	IBM	MSFT
Date
2010-01-04	27.990226	313.062468	113.304536	25.884104
2010-01-05	28.038618	311.683844	111.935822	25.892466
2010-01-06	27.592626	303.826685	111.208683	25.733566
2010-01-07	27.541619	296.753749	110.823732	25.465944
2010-01-08	27.724725	300.709808	111.935822	25.641571
...	...	...	...	...
2016-10-17	117.550003	779.960022	154.770004	57.220001
2016-10-18	117.470001	795.260010	150.720001	57.660000
2016-10-19	117.120003	801.500000	151.259995	57.529999
2016-10-20	117.059998	796.969971	151.520004	57.250000
2016-10-21	116.599998	799.369995	149.630005	59.660000

	AAPL	GOOG	IBM	MSFT
Date
2010-01-04	123432400	3927000	6155300	38409100
2010-01-05	150476200	6031900	6841400	49749600
2010-01-06	138040000	7987100	5605300	58182400
2010-01-07	119282800	12876600	5840600	50559700
2010-01-08	111902700	9483900	4197200	51197400
...	...	...	...	...
2016-10-17	23624900	1089500	5890400	23830000
2016-10-18	24553500	1995600	12770600	19149500
2016-10-19	20034600	116600	4632900	22878400
2016-10-20	24125800	1734200	4023100	49455600
2016-10-21	22384800	1260500	4401900	79974200

	AAPL	GOOG	IBM	MSFT
Date
2016-10-17	-0.000680	0.001837	0.002072	-0.003483
2016-10-18	-0.000681	0.019616	-0.026168	0.007690
2016-10-19	-0.002979	0.007846	0.003583	-0.002255
2016-10-20	-0.000512	-0.005652	0.001719	-0.004867
2016-10-21	-0.003930	0.003011	-0.012474	0.042096

	AAPL	GOOG	IBM	MSFT
AAPL	0.000277	0.000107	0.000078	0.000095
GOOG	0.000107	0.000251	0.000078	0.000108
IBM	0.000078	0.000078	0.000146	0.000089
MSFT	0.000095	0.000108	0.000089	0.000215

	꽃받침길이	꽃받침너비	꽃잎길이	꽃잎너비
0	0.222222	0.625000	0.067797	0.041667
1	0.166667	0.416667	0.067797	0.041667
2	0.111111	0.500000	0.050847	0.041667
3	0.083333	0.458333	0.084746	0.041667
4	0.194444	0.666667	0.067797	0.041667
...	...	...	...	...
145	0.666667	0.416667	0.711864	0.916667
146	0.555556	0.208333	0.677966	0.750000
147	0.611111	0.416667	0.711864	0.791667
148	0.527778	0.583333	0.745763	0.916667
149	0.444444	0.416667	0.694915	0.708333

판다스 3편¶

주요 내용¶

기본 설정¶

5.3 기초 통계 함수 (p. 226)¶

5.3.1 상관관계와 공분산 (p. 229)¶

`corr()`/`cov()` 메서드¶

`corrwith()` 메서드: 다른 시리즈 또는 데이터프레임과의 상관계수 계산¶

5.3.2 중복과 빈도수 (p. 232)¶

`unique()` 메서드¶

`value_counts()` 메서드¶

연습문제¶

	one	two
count	3.000000	2.000000
mean	3.083333	-2.900000
std	3.493685	2.262742
min	0.750000	-4.500000
25%	1.075000	-3.700000
50%	1.400000	-2.900000
75%	4.250000	-2.100000
max	7.100000	-1.300000

	AAPL	GOOG	IBM	MSFT
AAPL	1.000000	0.407919	0.386817	0.389695
GOOG	0.407919	1.000000	0.405099	0.465919
IBM	0.386817	0.405099	1.000000	0.499764
MSFT	0.389695	0.465919	0.499764	1.000000

	꽃받침길이	꽃받침너비	꽃잎길이	꽃잎너비
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

	꽃받침길이	꽃받침너비	꽃잎길이	꽃잎너비
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
5	5.4	3.9	1.7	0.4
6	4.6	3.4	1.4	0.3
...	...	...	...	...
145	6.7	3.0	5.2	2.3
146	6.3	2.5	5.0	1.9
147	6.5	3.0	5.2	2.0
148	6.2	3.4	5.4	2.3
149	5.9	3.0	5.1	1.8

	꽃받침길이	꽃받침너비	꽃잎길이	꽃잎너비
꽃받침길이	1.000000	-0.109369	0.871754	0.817954
꽃받침너비	-0.109369	1.000000	-0.420516	-0.356544
꽃잎길이	0.871754	-0.420516	1.000000	0.962757
꽃잎너비	0.817954	-0.356544	0.962757	1.000000

	꽃받침길이	꽃받침너비	꽃잎길이	꽃잎너비	길이특성1
0	5.1	3.5	1.4	0.2	38.113320
1	4.9	3.0	1.4	0.2	35.182653
2	4.7	3.2	1.3	0.2	30.057127
3	4.6	3.1	1.5	0.2	33.221200
4	5.0	3.6	1.4	0.2	36.633333
...	...	...	...	...	...
145	6.7	3.0	5.2	2.3	244.321307
146	6.3	2.5	5.0	1.9	207.711000
147	6.5	3.0	5.2	2.0	229.952667
148	6.2	3.4	5.4	2.3	217.262880
149	5.9	3.0	5.1	1.8	185.815780

	꽃받침길이	꽃받침너비	꽃잎길이	꽃잎너비
50	7.0	3.2	4.7	1.4
51	6.4	3.2	4.5	1.5
52	6.9	3.1	4.9	1.5
53	5.5	2.3	4.0	1.3
54	6.5	2.8	4.6	1.5

	꽃받침길이	꽃받침너비	꽃잎길이	꽃잎너비
95	5.7	3.0	4.2	1.2
96	5.7	2.9	4.2	1.3
97	6.2	2.9	4.3	1.3
98	5.1	2.5	3.0	1.1
99	5.7	2.8	4.1	1.3

	꽃받침길이	꽃받침너비	꽃잎길이	꽃잎너비
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

	꽃받침길이	꽃받침너비	꽃잎길이	꽃잎너비
0	-0.897674	1.028611	-1.336794	-1.308593
1	-1.139200	-0.124540	-1.336794	-1.308593
2	-1.380727	0.336720	-1.393470	-1.308593
3	-1.501490	0.106090	-1.280118	-1.308593
4	-1.018437	1.259242	-1.336794	-1.308593

	꽃받침길이	꽃받침너비	꽃잎길이	꽃잎너비
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

	꽃받침길이	꽃받침너비	꽃잎길이	꽃잎너비
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
5	5.4	3.9	1.7	0.4
6	4.6	3.4	1.4	0.3
...	...	...	...	...
145	6.7	3.0	5.2	2.3
146	6.3	2.5	5.0	1.9
147	6.5	3.0	5.2	2.0
148	6.2	3.4	5.4	2.3
149	5.9	3.0	5.1	1.8

	꽃받침길이	꽃받침너비	꽃잎길이	꽃잎너비
50	7.0	3.2	4.7	1.4
51	6.4	3.2	4.5	1.5
52	6.9	3.1	4.9	1.5
53	5.5	2.3	4.0	1.3
54	6.5	2.8	4.6	1.5

	꽃받침길이	꽃받침너비	꽃잎길이	꽃잎너비
95	5.7	3.0	4.2	1.2
96	5.7	2.9	4.2	1.3
97	6.2	2.9	4.3	1.3
98	5.1	2.5	3.0	1.1
99	5.7	2.8	4.1	1.3

	꽃받침길이	꽃받침너비	꽃잎길이	꽃잎너비
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

판다스 3편¶

주요 내용¶

기본 설정¶

5.3 기초 통계 함수 (p. 226)¶

5.3.1 상관관계와 공분산 (p. 229)¶

corr()/cov() 메서드¶

corrwith() 메서드: 다른 시리즈 또는 데이터프레임과의 상관계수 계산¶

5.3.2 중복과 빈도수 (p. 232)¶

unique() 메서드¶

value_counts() 메서드¶

연습문제¶

`corr()`/`cov()` 메서드¶

`corrwith()` 메서드: 다른 시리즈 또는 데이터프레임과의 상관계수 계산¶

`unique()` 메서드¶

`value_counts()` 메서드¶

	꽃받침길이	꽃받침너비	꽃잎길이	꽃잎너비
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

	꽃받침길이	꽃받침너비	꽃잎길이	꽃잎너비
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
5	5.4	3.9	1.7	0.4
6	4.6	3.4	1.4	0.3
...	...	...	...	...
145	6.7	3.0	5.2	2.3
146	6.3	2.5	5.0	1.9
147	6.5	3.0	5.2	2.0
148	6.2	3.4	5.4	2.3
149	5.9	3.0	5.1	1.8

	꽃받침길이	꽃받침너비	꽃잎길이	꽃잎너비
50	7.0	3.2	4.7	1.4
51	6.4	3.2	4.5	1.5
52	6.9	3.1	4.9	1.5
53	5.5	2.3	4.0	1.3
54	6.5	2.8	4.6	1.5

	꽃받침길이	꽃받침너비	꽃잎길이	꽃잎너비
95	5.7	3.0	4.2	1.2
96	5.7	2.9	4.2	1.3
97	6.2	2.9	4.3	1.3
98	5.1	2.5	3.0	1.1
99	5.7	2.8	4.1	1.3

	꽃받침길이	꽃받침너비	꽃잎길이	꽃잎너비
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2