데이터 과학

이항분포 본문

AP/AP Statistics

이항분포

티에스윤 2023. 4. 16. 22:04

베르누이 시행

 

베르누이 시행은 두 가지 결과 중 하나가 발생하는 실험이나 시행을 말합니다. 예를 들어, 동전 던지기는 베르누이 시행의 예입니다. 동전이 앞면이 나오거나 뒷면이 나오는 두 가지 결과 중 하나가 발생하기 때문입니다.

또 다른 예시로는 병원에서 환자가 치료 후 완치되었는지의 여부를 검사하는 것이 있습니다. 환자가 완치되었다면 성공, 완치되지 않았다면 실패로 간주하여 두 가지 결과 중 하나가 발생하는 베르누이 시행으로 생각할 수 있습니다.

베르누이 시행에서는 각 결과의 발생 확률이 동일하다고 가정합니다. 이를 베르누이 분포라고 부르며, 이러한 분포는 이항분포의 기초가 됩니다. 이항분포는 여러 개의 베르누이 시행에서 성공한 횟수를 다루는 분포로, 베르누이 시행에서 성공/실패 여부를 다루는 것과는 조금 차이가 있습니다.

 

 

이항분포

이항분포는 이항실험에서 성공과 실패의 확률을 가지는 실험을 n번 반복하였을 때, 성공한 횟수 X가 따르는 확률분포입니다.

여기서 이항실험은 두 가지 결과만 가지는 실험으로, 각 시행에서 성공할 확률이 p이고, 실패할 확률이 q=1-p인 실험입니다. 예를 들어, 동전 던지기, 복권 구매, 제품 생산 검사 등이 이에 해당됩니다.

따라서 이항분포의 확률질량함수는 P(X=k) = (n choose k) * p^k * q^(n-k)로 표현할 수 있습니다. 여기서 (n choose k)는 조합(combination)을 의미하며, n번의 시행에서 k번의 성공을 얻는 경우의 수를 의미합니다.

이항분포는 큰 표본에서 성공하는 비율이 일정한 경우에 가까워지는 정규분포와 관련이 있으며, 이를 이용하여 이항분포를 근사할 수도 있습니다. 이항분포는 확률 이론과 통계학에서 매우 중요한 개념으로, 실생활에서 다양한 분야에서 적용되고 있습니다.


예를 들어, A쇼핑몰에서 구매한 100명의 고객 중에서 20명이 신제품을 구매한 경우를 생각해 봅시다. 이 경우, 이항분포에서 n=100, k=20이 됩니다.

만약 A쇼핑몰에서의 신제품 구매율이 30%로 알려져 있다면, 각 고객이 신제품을 구매할 확률 p=0.3입니다. 따라서 실패할 확률 q=1-p=0.7입니다.

이때, 20명의 고객이 신제품을 구매한 경우의 확률은 P(X=20) = (100 choose 20) * 0.3^20 * 0.7^80으로 계산할 수 있습니다. 이를 계산하면 약 0.0669이므로, A쇼핑몰의 고객 중에서 20명이 정확히 신제품을 구매할 확률은 6.69%입니다.

이와 같이 이항분포를 사용하여, 특정 상황에서 어떤 사건이 일어날 확률을 계산할 수 있습니다. 이를 통해 예측하거나, 의사결정을 내리거나, 검증 등의 다양한 응용이 가능합니다.

이항분포는 큰 표본에서 성공하는 비율이 일정한 경우에 가까워지는 정규분포와 관련이 있습니다. 이를 이항분포의 정규화(normalization) 혹은 근사(approximation)라고 합니다.

정규화를 하기 위해서는, 이항분포의 평균과 분산을 계산해야 합니다. 이항분포의 평균은 np이고, 분산은 npq입니다. 여기서 n은 시행 횟수, p는 성공확률, q는 실패확률입니다.

정규화를 하기 위해서는, 평균과 분산을 이용하여 정규분포의 평균과 분산을 구할 수 있습니다. 이 때, 이항분포의 확률질량함수에서 k를 x로 대체하여 정규분포의 밀도함수를 구할 수 있습니다. 정규화된 이항분포의 확률밀도함수는 다음과 같습니다.

P(X=x) ≈ (1 / sqrt(2πσ^2)) * exp(-(x-μ)^2 / 2σ^2)

여기서 μ는 이항분포의 평균(np)이고, σ^2는 이항분포의 분산(npq)의 제곱근입니다.

이렇게 구한 정규분포를 이용하면, 이항분포의 확률을 근사할 수 있습니다. 이를 통해, 이항분포의 계산이 어려운 경우에도 대략적인 결과를 얻을 수 있습니다.

 

이항분포와 정규분포


이항분포와 정규분포는 모두 확률 분포이지만, 몇 가지 차이점이 있습니다.

정의: 이항분포는 이항 시행에서 성공하는 횟수에 대한 확률 분포입니다. 반면에 정규분포는 연속 변수의 분포를 나타내는 데 사용되는 확률 분포입니다.

표본 크기: 이항분포는 이항 시행에서 성공/실패를 반복하여 시행하는 경우에 적용됩니다. 따라서 표본 크기 n이 존재합니다. 반면에 정규분포는 표본 크기가 무한대로 커지는 경우에 적용됩니다.

확률 변수의 종류: 이항분포는 이항 시행에서 성공하는 횟수를 확률 변수로 사용합니다. 반면에 정규분포는 연속 변수를 확률 변수로 사용합니다.

형태: 이항분포는 이산적인 값으로 구성된 분포입니다. 반면에 정규분포는 연속적인 값으로 구성된 분포입니다.

모양: 이항분포는 대개 울퉁불퉁하고 비대칭적인 모양을 가집니다. 반면에 정규분포는 종모양으로 대칭적인 모양을 가집니다.

계산: 이항분포는 이항계수와 이항확률을 사용하여 직접 계산이 가능합니다. 반면에 정규분포는 표준정규분포와 표준화를 이용하여 계산합니다.

이항분포는 이항 시행에서의 성공/실패 횟수를 다루는 분포이고, 정규분포는 연속 변수를 다루는 분포입니다. 따라서, 각 분포가 사용되는 상황은 다르며, 이를 적절히 이용하여 원하는 분석을 할 수 있습니다.

'AP > AP Statistics' 카테고리의 다른 글

기술 통계학과 추론 통계학  (0) 2025.01.12
신뢰구간 문제 풀이  (0) 2023.04.25
자유도  (0) 2023.03.31
실험과 관찰학습  (0) 2023.01.09
AP Statistics 시작  (0) 2023.01.01