본문 바로가기
통계와 빅데이터

확률과 확률분포

by MumMummi 2024. 9. 8.

확률과 확률분포
확률과 확률분포

확률

  • 사건 A가 발생할 확률 P(A)는 랜덤한 결과가 나오는 실험을 무한히 많이 수행했을 때 사건 A가 발생하는 비율로 불확실성을 이해하고 설명하는데 활용되는 것이다. 
  • 표본공간이란(S) 랜덤한 결과가 나오는 실험에서 나올 수 있는 모든 결과를 모아 놓은 집합으로 P(S)로 표현하며, 주사위를 던졌을 때 나올 수 있는 수의 경우 {1, 2, 3, 4, 5, 6}으로 나타낼 수 있다. 
  • 사건이란 표본공간의 부분집합으로 주사위를 던졌을 대 짝수가 나오는 확률 {2, 4, 6} 등을 의미한다. 
  • 사건 A와 사건 B가 둘다 일어나는 것이 불가능한 경우, 교집합은 0이고, A와 B는 배반사건이라고 한다. A의 여사건은 A가 일어나지 않는 사건을 의미한다. 
  • 조건부 확률은 사건 A가 일어났다는 조건 하에 사건 B가 일어날 확률로, A가 일어날 확률을 분모에 두고 A와 B가 동시에 일어날 확률은 분자에 두는 형태로 계산한다.
  • 조건부 확률의 정의로부터 아래와 같은 곱셈법칙이 성립한다. 
    • P(A교집합B) = P(AㅣB)P(B) = P(BㅣA)P(A) 
  • 사건 A는 어느 감염병에 걸리는 사건이고, 사건 B는 PCR 검사에서 양성이 나오는 사건이라고 할 때, 아래와 같이 확률을 표현할 수 있다.
    • 유병률이 10%인 경우 P(A) = 0.1, 실제로 이 감염병에 걸린 사람 중 90%는 PCR 양성이라면 P(BㅣA) = 0.9, 실제로 이 감염병에 걸리지 않은 사람 중 10%는 PCR 양성 P(BㅣA여사건) = 0.1
    • 이 국가의 국민이 PCR 검사에서 양성이 나올 확률 P(B)는? 
      • P(B) = P(BㅣA)P(A) + P(BㅣA여사건)P(A여사건) = 0.9 * 0.1 + 0.1 * 0.9 = 0.18
  • 독립사건은 사건  A가 일어났다고 해도, 사건 B에 일어날 확률에 아무런 영향을 미치지 않는 경우 두 사건은 독립이다. 
    • P(A교집합B) = P(A)P(B)
  • 베이즈정리는 A가 일어났다는 조건 아래 B가 일어날 확률 P(BㅣA)와 B가 일어났다는 조건 아래 A가 일어날 확률 P(AㅣB)의 관계를 설명해주는 공식이다. 

 

확률변수와 확률분포

  • 확률변수란 랜덤하게 발생한 사건에 따라 값이 달라지는 변수로, 표본공간의 각 원소에 하나의 실수를 대응시키는 함수이다.  확률변수에는 두가지 종류가 있는데 먼저 이산형 확률변수란 모든 값의 집합이 유한하거나, 셀 수 있는 경우를 의미하며, 연속형 확률변수란 값이 무한이거나 셀 수 없는 경우를 의미한다. 즉 이상현 확률변수는 "동전을 세번 던졌을 때 앞면이 나오는 횟수로 0, 1, 2, 3" 등을 예시로 들 수 있으며, 연속형 확률변수는 사람의 키, 온도 등을 예시로 들 수 있다. 
  • 확률분포는 확률변수의 값이 어떻게 흩어져 있는지 나타낸 것으로 합이 1이다. 확률분포를 알면 확률변수가 특정값 또는 특정 구간에 속하는 값을 가질 확률을 알 수 있다. 이산형 확률변수의 경우 확률질량함수로 나타내며, 연속형 확률변수의 경우 확률밀도함수로 나타낸다. 
  • 연속형 확률변수는 특정 값을 취할 확률이 언제나 0이다. 그래서 연속형 확률변수의 분포는 확률변수의 각 값이 다른 값에 비해서 상대적으로 얼마나 관측될 가능성이 높은지를 나타내는 함수인 확률밀도함수로 나타낼 수 있다. 확률밀도함수는 양수이며, 전 구간을 더한 경우 1과 같다. 

 

대표적인 확률분포

  • 베르누이 분포는 두가지 값을 취하는 확률에 대한 분포이며, 확률변수 X가 p의 확률로 1 값을 취하고, 1-p의 확률로 0값을 취할 때, X는 베르누이 분포를 따른다고 한다. 
  • 이항분포는 베르누이 실험을 여러번 반복하고, 각각의 실험결과가 영향을 끼치지 않는 독립사건일 때, "성공" 횟수는 이항분포를 따른다고 한다. 
  • 포아송 분포는 매우 드물게 발생하는 사건이 일정 기간 동안 발생하는 횟수를 나타내는 분포로, 이런 사건이 모두 포아송 분포를 보이지는 않지만 포아송 분포를 따르는 경우가 많다. 
  • 정규분포는 통계학에서 가장 중요한 분포로, 평균을 중심으로 대칭인 종모양의 확률밀도함수이다. 특히 평균이 0이고 분산이 1인 정규분포를 표준정규분포라고 부른다. 
  • t-분포는 정규분포와 비슷하나 확률밀도함수의 꼬리가 조금 더 두꺼운 분포이다. 
  • 카이제곱 분포는 비대칭이고 오른쪽으로 꼬리가 긴 분포이다. 자유도가 높아질수록 분포가 넓게 퍼지고 오른쪽 꼬리가 두꺼워진다. 
  • f-분포는 서로 독립인 두 확률변수의 자유도가 각 카이제곱 분포를 따를 때, 그 확률변수의 비율의 분포가 f 분포이다. 자유도 값에 따라 중심 위치와 퍼진 정도가 달라진다.