from scipy.stats import binom

def ensemble_win_proba(n, p):
    """
    p: 예측기 하나의 성능
    n: 앙상블 크기, 즉 예측기 개수
    반환값: 다수결을 따를 때 성공할 확률. 이항 분포의 누적분포함수 활용.
    """
    return 1 - binom.cdf(int(n*0.4999), n, p)


ensemble_win_proba(1000, 0.51)

0.7467502275561786


ensemble_win_proba(10000, 0.51)

0.9777976478701533


ensemble_win_proba(10, 0.8)

0.9936306176

특성	중요도(%)
꽃잎 길이	44.1
곷잎 너비	42.3
꽃받침 길이	11.3
곷받침 너비	2.3

7장 앙상블 학습과 랜덤 포레스트 1부¶

감사의 글¶

주요 내용¶

앙상블 학습이란?¶

편향과 분산¶

편향과 분산의 트레이드오프¶

모델 복잡도, 편향, 분산의 관계¶

배깅 vs. 부스팅¶

7.1 투표식 분류기¶

직접투표¶

간접투표¶

투표식 분류기의 확률적 근거¶

투표식 분류기 예제¶

7.2 배깅/페이스팅¶

정의¶

배깅¶

배깅/페이스팅 예측 방식¶

앙상블 학습의 편향과 분산¶

예제: 사이킷런의 배깅/페이스팅¶

oob 평가¶

앙상블 모델의 검증과 테스트¶

7.3 랜덤 패치와 랜덤 서브스페이스¶

`max_features`¶

`bootstrap_features`¶

랜덤 패치 기법¶

랜덤 서브스페이스 기법¶

7.4 랜덤 포레스트¶

랜덤 포레스트 하이퍼파라미터¶

엑스트라 트리¶

예제¶

특성 중요도¶

예제: 붓꽃 데이터셋¶

예제: MNIST¶

7장 앙상블 학습과 랜덤 포레스트 1부¶

감사의 글¶

주요 내용¶

앙상블 학습이란?¶

편향과 분산¶

편향과 분산의 트레이드오프¶

모델 복잡도, 편향, 분산의 관계¶

배깅 vs. 부스팅¶

7.1 투표식 분류기¶

직접투표¶

간접투표¶

투표식 분류기의 확률적 근거¶

투표식 분류기 예제¶

7.2 배깅/페이스팅¶

정의¶

배깅¶

배깅/페이스팅 예측 방식¶

앙상블 학습의 편향과 분산¶

예제: 사이킷런의 배깅/페이스팅¶

oob 평가¶

앙상블 모델의 검증과 테스트¶

7.3 랜덤 패치와 랜덤 서브스페이스¶

max_features¶

bootstrap_features¶

랜덤 패치 기법¶

랜덤 서브스페이스 기법¶

7.4 랜덤 포레스트¶

랜덤 포레스트 하이퍼파라미터¶

엑스트라 트리¶

예제¶

특성 중요도¶

예제: 붓꽃 데이터셋¶

예제: MNIST¶

`max_features`¶

`bootstrap_features`¶