자료를 공개한 저자 오렐리앙 제롱과 강의자료를 지원한 한빛아카데미에게 진심어린 감사를 전합니다.
사용하는 모델에 따라 모델 성능 측정 기준(norm)을 다르게 선택한다. 선형 회귀 모델의 경우 일반적으로 아래 두 기준 중 하나를 사용한다.
head()
, info()
, describe()
, hist()
등을 사용하여 데이터 구조 훑어보기head()
메서드 활용 결과¶info()
메서드 활용 결과¶구역 수: 20,640개
구역별로 경도, 위도, 중간 주택 연도, 해안 근접도 등 총 10개의 조사 항목
'방의 총 개수'의 경우 누락된 데이터인 207개의 null 값 존재
특성값 | 설명 |
---|---|
<1H OCEAN | 해안에서 1시간 이내 |
INLAND | 내륙 |
NEAR OCEAN | 해안 근처 |
NEAR BAY | 샌프란시스코의 Bay Area 지역 |
ISLAND | 섬 |
소득 구간을 아래 숫자를 기준으로 5개로 구분
[0, 1.5, 3.0, 4.6, 6.0, np,inf]
<그림 출처: 위키백과>
상관계수: $[-1, 1]$ 구간의 값
1에 가까울 수록: 강한 양의 선형 상관관계
-1에 가까울 수록: 강한 음의 선형 상관관계
0에 가까울 수록: 매우 약한 선형 상관관계