import pandas as pd
import numpy as np


np.random.seed(12345)
np.set_printoptions(precision=4, suppress=True)

import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))


PREVIOUS_MAX_ROWS = pd.options.display.max_rows # 원래 60이 기본.
pd.set_option("max_rows", 20)


obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64


obj = pd.Series(np.array([4, 7, -5, 3]))
obj

0    4
1    7
2   -5
3    3
dtype: int32


obj.values

array([ 4,  7, -5,  3])


obj.index

RangeIndex(start=0, stop=4, step=1)


obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64


obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

obj

0    4
1    7
2   -5
3    3
dtype: int32


obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int32


obj2['a']

-5


obj2['d'] = 6

obj2

d    6
b    7
a   -5
c    3
dtype: int64


obj2_1 = obj2[['c', 'a', 'd']]
obj2_1

c    3
a   -5
d    6
dtype: int64


obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64


obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64


np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64


sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64


states = ['California', 'Ohio', 'Oregon', 'Texas']

obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64


dict(obj4)

{'California': nan, 'Ohio': 35000.0, 'Oregon': 16000.0, 'Texas': 71000.0}


'b' in obj2

True


'e' in obj2

False


pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool


pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool


obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool


obj4.notnull()

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool


obj4.isnull().any()

True


obj4.notnull().all()

False


np.any(obj4.isnull())

True


np.all(obj4.notnull())

False


obj3
obj4
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64


obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64


series1 = pd.Series([4, 5, 6, 3 , 1], name="Mango")
series1

0    4
1    5
2    6
3    3
4    1
Name: Mango, dtype: int64


series2 = pd.Series([5, 4, 3, 0, 2], name="Apple")
series2

0    5
1    4
2    3
3    0
4    2
Name: Apple, dtype: int64


series3 = pd.Series([2, 3, 5, 2, 7], name="Banana")
series3

0    2
1    3
2    5
3    2
4    7
Name: Banana, dtype: int64


series1.name

'Mango'


series2.name

'Apple'


series3.name

'Banana'


pd.DataFrame({series1.name:series1, series2.name:series2, series3.name:series3})


pd.concat([series1, series2, series3], axis=1)


data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada', 'NY', 'NY', 'NY'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003, 2002, 2003, 2004],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2, 8.3, 8.4, 8.5]}


frame = pd.DataFrame(data)
frame


frame.head(3)


frame.head()


frame.tail(3)


frame.tail()


pd.DataFrame(data, columns=['year', 'state', 'pop'])


frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'])
frame2


frame2_ = frame2.copy()
frame2_["debt2"] = np.linspace(0, 1, 9)   # 구간 [0, 1]을 8개의 구간으로 쪼개기

frame2_


frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')


frame2 = pd.DataFrame(data, index=['one', 'two', 'three', 'four',
                             'five', 'six', 'seven', 'eight', 'nine'])
frame2


frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four',
                             'five', 'six', 'seven', 'eight', 'nine'])
frame2


frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
seven        NY
eight        NY
nine         NY
Name: state, dtype: object


frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
seven    2002
eight    2003
nine     2004
Name: year, dtype: int64


frame2['Ohio state'] = frame2.state == 'Ohio'
frame2


frame2['Ohio state']

one       True
two       True
three     True
four     False
five     False
six      False
seven    False
eight    False
nine     False
Name: Ohio state, dtype: bool


del frame2['Ohio state']
frame2


frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')


frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object


frame2.loc[['three', 'four']]


frame2['debt'] = 16.5
frame2


frame2['debt'] = np.arange(9.)
frame2


val = pd.Series([-1.2, -1.5, -1.7, 2.2], index=['two', 'four', 'five', 'eleven'])
val

two      -1.2
four     -1.5
five     -1.7
eleven    2.2
dtype: float64


frame2['debt'] = val
frame2


pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}


frame3 = pd.DataFrame(pop)
frame3


nevada = pd.Series({2001: 2.4, 2002: 2.9}, name="Nevada")
nevada

2001    2.4
2002    2.9
Name: Nevada, dtype: float64


ohio = pd.Series({2000: 1.5, 2001: 1.7, 2002: 3.6}, name="Ohio")
ohio

2000    1.5
2001    1.7
2002    3.6
Name: Ohio, dtype: float64


pd.concat([nevada, ohio], axis=1)


frame3.T


frame3.index.name = 'year'      # 행 이름 지정
frame3.columns.name = 'state'   # 열 이름 지정
frame3


frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])


frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan],
       [2002, 'NY', 8.3, nan],
       [2003, 'NY', 8.4, nan],
       [2004, 'NY', 8.5, nan]], dtype=object)


obj = pd.Series(range(3), index=['a', 'b', 'c'])
obj

a    0
b    1
c    2
dtype: int64


index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')


index[1]

'b'


index[1:]

Index(['b', 'c'], dtype='object')


frame3


frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='state')


'Ohio' in frame3.columns

True


2003 in frame3.index

False


dup_labels = pd.Index(['one', 'two', 'two', 'three', 'three', 'three'])
dup_labels

Index(['one', 'two', 'two', 'three', 'three', 'three'], dtype='object')


frame2


pd.DataFrame(frame2, index=dup_labels)

사전	시리즈
키(key)	인덱스
값	값
순서 없음	순서 중요
중복 없음	중복 허용

판다스 1편¶

주요 내용¶

기본 설정¶

5. 1 판다스 자료구조 소개 (p. 182)¶

5.1.1 시리즈(`Series`) (p. 182)¶

시리스 생성 1¶

인덱스 지정¶

인덱스 대체¶

인덱싱¶

부울 인덱싱(필터링)¶

연산 및 유니버설 함수 적용¶

사전(`dict`)과 시리즈(`Series`) 비교¶

시리즈 생성 2¶

`in` 연산자¶

결측치 사용 여부 확인¶

시리즈 연산과 인덱스¶

`name` 속성¶

5.1.2 데이터프레임(`DataFrame`) (p. 187)¶

데이터프레임 생성 1¶

데이터프레임 생성 2¶

`head()` 메서드¶

`tail()` 메서드¶

`columns` 속성¶

`index` 속성¶

열 인덱싱¶

열 삭제¶

행 인덱싱¶

열 업데이트¶

데이터프레임 생성 3¶

전치 데이터프레임¶

`name`/`values` 속성¶

5.1.3 인덱스 객체 (p. 195)¶

`index` 속성¶

`columns` 속성¶

`in` 연산자¶

중복 인덱스¶

	state	year	pop
0	Ohio	2000	1.5
1	Ohio	2001	1.7
2	Ohio	2002	3.6
3	Nevada	2001	2.4
4	Nevada	2002	2.9
5	Nevada	2003	3.2
6	NY	2002	8.3
7	NY	2003	8.4
8	NY	2004	8.5

	year	state	pop	debt	debt2
0	2000	Ohio	1.5	NaN	0.000
1	2001	Ohio	1.7	NaN	0.125
2	2002	Ohio	3.6	NaN	0.250
3	2001	Nevada	2.4	NaN	0.375
4	2002	Nevada	2.9	NaN	0.500
5	2003	Nevada	3.2	NaN	0.625
6	2002	NY	8.3	NaN	0.750
7	2003	NY	8.4	NaN	0.875
8	2004	NY	8.5	NaN	1.000

	year	state	pop	debt	Ohio state
one	2000	Ohio	1.5	NaN	True
two	2001	Ohio	1.7	NaN	True
three	2002	Ohio	3.6	NaN	True
four	2001	Nevada	2.4	NaN	False
five	2002	Nevada	2.9	NaN	False
six	2003	Nevada	3.2	NaN	False
seven	2002	NY	8.3	NaN	False
eight	2003	NY	8.4	NaN	False
nine	2004	NY	8.5	NaN	False

	year	state	pop	debt
one	2000	Ohio	1.5	16.5
two	2001	Ohio	1.7	16.5
three	2002	Ohio	3.6	16.5
four	2001	Nevada	2.4	16.5
five	2002	Nevada	2.9	16.5
six	2003	Nevada	3.2	16.5
seven	2002	NY	8.3	16.5
eight	2003	NY	8.4	16.5
nine	2004	NY	8.5	16.5

	Mango	Apple	Banana
0	4	5	2
1	5	4	3
2	6	3	5
3	3	0	2
4	1	2	7

	Mango	Apple	Banana
0	4	5	2
1	5	4	3
2	6	3	5
3	3	0	2
4	1	2	7

판다스 1편¶

주요 내용¶

기본 설정¶

5. 1 판다스 자료구조 소개 (p. 182)¶

5.1.1 시리즈(Series) (p. 182)¶

시리스 생성 1¶

인덱스 지정¶

인덱스 대체¶

인덱싱¶

부울 인덱싱(필터링)¶

연산 및 유니버설 함수 적용¶

사전(dict)과 시리즈(Series) 비교¶

시리즈 생성 2¶

in 연산자¶

결측치 사용 여부 확인¶

시리즈 연산과 인덱스¶

name 속성¶

5.1.2 데이터프레임(DataFrame) (p. 187)¶

데이터프레임 생성 1¶

데이터프레임 생성 2¶

head() 메서드¶

tail() 메서드¶

columns 속성¶

index 속성¶

열 인덱싱¶

열 삭제¶

행 인덱싱¶

열 업데이트¶

데이터프레임 생성 3¶

전치 데이터프레임¶

name/values 속성¶

5.1.3 인덱스 객체 (p. 195)¶

index 속성¶

columns 속성¶

in 연산자¶

중복 인덱스¶

5.1.1 시리즈(`Series`) (p. 182)¶

사전(`dict`)과 시리즈(`Series`) 비교¶

`in` 연산자¶

`name` 속성¶

5.1.2 데이터프레임(`DataFrame`) (p. 187)¶

`head()` 메서드¶

`tail()` 메서드¶

`columns` 속성¶

`index` 속성¶

`name`/`values` 속성¶

`index` 속성¶

`columns` 속성¶

`in` 연산자¶