1. 표본분포와 중심극한정리
- 표본 변동은 표본을 랜덤하게 뽑은 과정에서 표본마다 조금씩 다른 개체가 선택되면서 생기는 표본 간의 차이를 의미한다. 이러한 표본 변동은 여러 표본 사이의 차이이며, 한 표본 내에서의 개체 차이나 모집단 내에서의 개체의 차이가 아니다.
- 표본 평균의 값은 표본모다 조금씩 다르지만, 모평균과 비슷한 값을 가지며 차이가 많이 나는 표본 평균은 적다.
pop<- -4:4
m<-10000
xbar.vec<-rep(NA,m)
for(i in 1:m){
set.seed(1000+i)
xx<-sample(pop, size=4, replace=TRUE)
xbar.vec[i]<-mean(xx)
}
xbar.ved
hist(xbar.vec, main="n=4, m=1000", xlab=bquote(x))
mean(xbar.vec)
sd(xbar.vec)
- 중심극한정리란 표본평균의 분포가 모평균 근처에 어떤 모양으로 얼마나 집중되어 있는지 알려 주는 정리이며, 아래가 주요 내용이다.
- 표본평균의 평균은 모평균과 같다. (표본을 뽑아 평균을 낸 모든 값을 평균 내보면 모집단 전체의 평균과 같아진다)
- 표본평균의 분산은 모분산/n과 같다. (내가 뽑은 표본평균이 크면 클 수록 모평균에 가까울 가능성이 크다)
- n이 커질 수록 표본 평균의 분포는 정규분포에 가까워진다. 모집단의 분포와 관계 없이, n이 커짐에 따라 표본 평균의 분포는 정규분포에 가까워진다.
m<-10000
xbar.vec2<-rep(NA,m)
for(i in 1:m){
set.seed(1000+i)
xx<-sample(pop, size=40, replace=TRUE)
xbar.vec2[i]<-mean(xx)
}
hist(xbar.vec, main="n=4, m=1000", xlab=bquote(bar(x)))
hist(xbar.vec2, main="n=40, m=1000", xlab=bquote(bar(x)),xlim=c(-4, 4))
mean(xbar.vec2)
sd(xbar.vec2)
2. 추정과 신뢰구간
- 통계적 추론은 표본의 데이터를 이용하여 모집단에 대해 추측하고 결론을 내리는 것으로 추정은 통계량을 이용하여 모수의 값을 찾는 것이다. 먼저 점추정은 모수에 대한 하나의 추정량을 제시하는 것이고 구간추정은 신뢰구간을 제시하는 것이다.
- 모평균은 값이 고정된 상수이다. 신뢰구간은 표본을 새로 뽑을때마다 변한다. (표본변동). 모평균은 고정된 상태에서 표본을 여러 번 뽑아 여러 개의 신뢰구간을 구할 경우, 그 중 약 95%의 신뢰구간이 모평균을 포함한다.
- 흔히하는 오해 중 하나는 내가 뽑은 특정 신뢰구간 안에 모평균이 들어갈 확률이 95%라고 생각하는 것인데, 내가 뽑은 특정 표본을 기반으로 한 특정 신뢰구간 안에 모평균이 포함될 확률은 0아니면 1이다. (다만 0인지 1인지는 알 수 없음)
- 즉 95% 신뢰구간의 의미는 표본을 뽑아서 신뢰구간을 구하는 작업을 무한히 반복했을 때, 그 수많은 신뢰구간 중 95%가 모평균의 값을 포함한다는 뜻이다. (단 특정 신뢰구간이 모평균을 포함하는 95% 중 하나인지, 5% 중 하나인지는 모른다)
dat0<-read.csv("biostat_ex_data.csv")
summary(dat0)
library(dplyr)
dat1<-dat0 %>% mutate_at(vars(sex, Recur, stage, smoking,
obesity, Recur_1y,
post.CA19.9.binary, post.CA19.9.3grp),
as.factor)
summary(dat1)
mean(dat1$weight)
t.test(dat1$weight)
t.test(dat1$weight, conf.level=0.99)$conf.int
One Sample t-test
data: dat1$weight
t = 58.814, df = 155, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
65.83748 70.41377
sample estimates:
mean of x
68.12562
- 모비율의 추정이란 베르누이분포를 따르는 확률변수가 있을 때, 성공 확률을 추정하는 것으로 데이터의 이분형 변수의 분포를 추정할 때 쓰인다 (성공/실패 등)
- 정규근사방법은 n이나 p가 너무 작을 때는 정확하지 않으므로, np >=5와 n(1-p)>=5를 모두 만족할 때만 사용해야 한다. n값에 관계없이 사용할 수 있는 방법은 Exact방법(Clopper Pearson 방법)이 있다.
'통계와 빅데이터' 카테고리의 다른 글
확률과 확률분포 (1) | 2024.09.08 |
---|---|
파이썬, R, SQL 차이, 난이도, 동시 학습 주의점 (6) | 2024.09.08 |
파이썬 자료 구조 : 리스트, 튜플, 집합, 딕셔너리 (0) | 2024.09.08 |
데이터과학, 데이터과학자와 데이터 주도권 (8) | 2024.09.07 |
데이터의 구분 - 정형 데이터, 반정형 데이터, 범주형 데이터, 수치형 데이터 (0) | 2024.09.07 |