현실에 대한 통찰로 이끄는 문, 통계
통계 용어를 정확히 알아보자

통계는 현명한 의사결정을 하는데 도움을 줍니다. 통계는 불확실한 현실 세계에서 보이지 않았던 것을 볼 수 있게 해줍니다. 또 미래에는 과거보다 더 나은 선택을 할 수 있도록 시야를 넓여줍니다. 통계를 이용해 현실을 깊이 이해하고 삶을 변화시키는 통찰력을 한 마디로 요약하면 데이터 문해력(data literacy)라고 합니다. 영국의 통계학자 데이비드 스피겔할터(David Spiegelhalter)는 데이터 문해력에 대해 다음과 같이 정의합니다.

불확실한 현실 세계에서 현실 세계 문제에 관한 통계를 해석하는 능력, 다른 사람이 도출한 통계적 결론을 이해하고 비판적으로 분석하려는 능력

빠르게 변화하는 현대 사회에서 데이터 문해력을 갖추는 것은 중요합니다. 이 데이터 문해력을 갖추는 데 가장 기본적인 바탕이 되는 소양은 정확한 용어를 사용하는 일입니다. 이번 시간에는 확률과 통계에서 사용하는 주요 용어를 살펴보겠습니다.

각 용어 카드에는 국문명, 영문명, 기호, 정의, 설명, 공식(전제, 수식, 수식의 변수), 예제가 함께 제시되어 있습니다. 글에서 다룬 주요 정의는 참고 문헌에 다룬 전문 통계학 도서와 K-MOOC 강의 자료 및 교양 통계 도서에서 차용하였습니다. 내용은 지속적으로 업데이트될 예정입니다.

기초

1) 통계학 정의와 분야

통계
statistics

분석 대상이 되는 집단의 특징을 측정한 데이터의 집합

통계학
statistics

수학의 한 부문으로, 사회 현상을 통계에 의하여 관찰·연구하는 학문. 불확실한 상황에서 현명한 의사결정을 하기 위해 대상 집단의 특징을 파악하는 이론과 방법의 체계(자료 수집, 분류, 분석, 해석)

기술통계학통계학 분야
descriptive statistics

통계적 자료를 수집하고, 정리, 요약, 해석의 과정을 통하여 모집단 혹은 표본집단의 특성을 파악하는 방법에 기반한 통계학

추측통계학통계학 분야
inferential statistics

표본에서 얻은 통계량을 기초로 해서 모집단의 특성을 추론하는 방법에 기반한 통계학

  • 표본의 특성을 기초로 하여 모집단의 특성을 규명하는 학문
= 추계학(stochastic)
베이즈통계학통계학 분야
Bayesian statistics

하나의 사건에서의 믿음의 정도(degree of belief)를 확률로 나타내는 베이즈 확률론에 기반한 통계학

= 베이지안 통계학
실험설계, 실험계획통계학 응용 분야
design of experiments, DOE

실험에 대한 계획을 의미하는 것으로 해결하고자 하는 문제에 대하여 자료를 수집하기 전에 실험 실시 방법, 데이터 취득 방법, 표본 크기 결정, 공간이나 시간의 배치법, 통계적 방법 등을 파악하여 어떤 환경에서 데이터를 분석하면 최소의 실험 횟수로 최대의 정보를 얻을 수 있는가를 계획하고, 최적의 작업(생산)조건을 결정하는 것을 다루는 학문

  • 실험의 계획뿐만 아니라 실험을 통한 자료의 분석까지도 포함
  • PPDAC(Problem - Plan - Data - Analysis - Conclusion)
= experimental design, planning of experiment, 실험계획과 분석(experimental design and analysis)

2) 자료수집 유형

실험, 관찰, 조사
experiment, observation, survey

표본(데이터)를 얻는 방법

실험인과성
experiment

가설이나 이론이 실제로 들어맞는지를 확인하기 위해 연구자가 실험참가자를 임의로 다양한 조건하에 배치하여 설명변수와 반응변수 사이의 인과성(casuality)을 조사하는 일

  • 어떤 조작을 가해 그에 따라 일어나는 변화를 조사하고 결론을 내는 일
예시코로나(covid19) 백신이 실제로 효용이 있는가?
관측연관성
observation

실험과 달리 어떤 조작을 가하지 않고 연구자가 자료의 생성과정에 전혀 관여하지 않으면서 설명변수와 반응변수의 연관성(association)을 밝히는 일

  • 연구자가 자료를 관측하면서 수집
  • 큰 의미에서 측정(measurement)을 포함
예시몸무게 측정, 키 측정
= 관측연구(observational study)
조사
survey

실험이나 관찰 혹은 측정을 통하여 데이터를 획득할 수 없는 경우에 데이터를 얻는 방법

  • 설문지나 조사지 등을 통해 데이터를 얻음
예시여론조사, 의식조사

3) 연구 종류 및 관련 용어

전향적 연구
prospective study

연구자가 대상자를 추적 관찰하면서 정보를 얻는 연구

  • 실험과 관측연구 모두에서 사용
예시질환 발생 여부를 연구하기 위해 연구대상자의 비만 정도를 위험군과 일반군으로 나눈 다음 일정 기간 이후 두 그룹간의 질병 발병률을 비교
후향적 연구
retrospective study

이미 일어난 일에 대한 정보를 얻는 연구

  • 주로 관측연구에서 사용
예시폐암 환자들을 대상으로 과거 흡연 여부를 알아보는 연구
실험군
treatment group

자연과학의 실험에서, 세운 가설을 검증하기 위해 실험 조건을 통제하여 실험을 수행하는 대상 집단

대조군
control group

자연과학의 실험에서, 실험군에 대해 실험 조건을 실험 전 상태에서 변동시키지 않고 그대로 두어 실험군의 결과와 자연 상태를 대조해 보기 위해 만드는 집단

4) 모집단과 표본

모집단
population

조사 또는 연구의 대상이 되는 자료 전체, 연구자의 관심의 대상이 되는 모든 개체의 집합, 통계적인 관찰의 대상이 되는 집단 전체

표본
sample

모집단에서 조사 대상으로 채택된 일부, 모집단에서 추출된 자료의 집합

모수
parameter

모수란 모집단의 특성을 수치로 나타낸 것

통계량
statistics

표본의 특성을 수치로 나타낸 것, 모수에 대한 점추정량

5) 변수(variable)

변수
variable

자료분석의 관점에서 보는 자연 및 사회현상의 여러 가지 요인들. 연구자의 관심대상이 되는 성격 또는 속성(attribute)이나 연구대상들이 서로 구별되어 나타나는 속성. 데이터를 구성하는 모든 유형의 관측 기록을 아우르는 용어. 다른 상황에서 다른 값을 취할 수 있는 임의의 측정값. 다른 상황에서 다른 값을 취할 수 있는 임의의 측정값. 데이터를 구성하는 모든 유형의 관측 기록을 아우르는 용어. 변하는 수

= 변량(variate)

속성에 따른 분류

질적 변수
qualitative variable

속성을 수치로 나타낼 수 없는 변수

  • 이진변수(binary variable): 예/아니오라는 두가지 값으로만 대답할 수 있는 질문과 같은 변수
  • 범주형변수(categorical variable): 둘 이상의 배타적 개별 범주로 구분되는 측정값을 갖는 변수
= 정성변수
명목(형)변수질적변수 종류
nominal variable

가장 낮은 수준의 변수로 측정대상의 특성을 분류 또는 구분하기 위하여 숫자를 부여하는 변수

  • 수준: 범주
예시성별, 인종, 종교, 지역, 국적, 우편번호, 자녀유무, 혈액형, 운동선수 등번호, 질병여부, 자동차 색깔, 수술한 병원
서열변수질적변수 종류
ordinal variable

명목변수보다 한 단계 높은 수준의 변수로 측정대상 간의 순서를 매기기 위하여 사용되는 변수

  • 수준: 범주 + 순위
예시석차, 등급, 성적, 학력, 군인의 계급, 경제적 수준, 선호도, 만족도, 신뢰도
양적 변수
quantitative variable

속성을 수치로 나타낼 수 있는 변수

등간변수양적변수 종류
interval variable

측정대상의 순서뿐만 아니라 순서 사이의 간격을 알 수 있는 변수

  • 수준: 범주 + 순위 + 등간
예시온도, 지능지수, 대학학년
비율변수양적변수 종류
ratio variable

등간변수의 특성에 더하여 측정자료 간의 비율계산이 가능한 변수

  • 수준: 범주 + 순위 + 등간 + 절대영점
예시연령, 무게, 시간, 거리

형태에 따른 분류

이산변수양적 변수 종류
discrete variable

정숫값을 취할 수 있는 변수

예시각 세대의 자녀수, 자동차의 판매대수
연속변수양적 변수 종류
continuous variable

연속적인 모든 실숫값을 취할 수 있는 변수

예시길이, 무게, 온도 변화

통계적 분석 방법에 따른 분류

독립변수
independent variable

어떤 변수가 다른 변수에 영향을 주고 받는 경우 영향을 주는 변수

= 설명변수(explanatory variable)
종속변수양적 변수 종류
dependent variable

어떤 변수가 다른 변수에 영향을 주고 받는 경우 영향을 받는 변수

= 반응변수(response variable)

연구에 영향을 미치는 요인에 따른 분류

중첩변수
confounding variable

반응변수와 설명변수에 모두 영향을 미치는 변수

예시위약효과(placebo effect), 관찰자 편향(observer bias)
= 교락변수, 교락 요인(confounder, confounding factor), 외생 변수

6) 자료(data)

데이터
data

어떤 변수가 가질 수 있는 다양한 가능성 중의 하나가 현실 세계에 구체화된 값. 변수를 관찰하여 기록한 결과

= 자료

속성에 따른 분류

질적 자료
qualitative data

질적 변수를 기록한 자료

= 정성적 데이터, 비계량적 데이터, 범주형 데이터(categorical data), 범주형자료
명목형 자료질적 자료 종류
nominal data

대상의 범주적 속성만을 나타내는 양적 자료

예시국적, 성별, 결혼상태(기혼, 미혼), 혈액형
순서자료질적 자료 종류
ordinal data

대상의 속성을 순서로 구분할 수 있는 양적 자료

예시학력, 학년, 군인계급
= 순서형자료
양적 자료
quantitative data

양적 변수를 기록한 자료

= 정량적 데이터, 계량적 데이터, 수치형 데이터(numerical data)
구간형 자료양적 자료 종류
interval data

대상의 속성을 수치로 나타낸 데이터

예시키, 몸무게
비율형 자료양적 자료 종류
ratio data

원점의 의미가 분명한 데이터

예시소득

형태에 따른 분류

이산자료양적 자료 종류
discrete data

연속적인 수로 표시할 수 없고 정수로만 표시가능한 자료, 이산적 변수의 관찰결과

예시사고건 수, 안타의 수, 하루동안 택시에 탄 승객, 한 페이지 당 오자의 수, 일별 은행방문자 수
= 이산형 데이터
연속자료양적 자료 종류
continuous data

연속적인 수로 표시할 수 있는 자료, 연속적 변수의 관찰 결과

예시몸무게, 키, 나이, 혈당, 혈압, 콜레스테롤 수치, 소변 납 농도
= 연속자료

기타

이진데이터
binary data

특정 사건의 발생 유무와 같이 두 가지 값(예/아니오)으로 이루어진 데이터

  • 이진데이터의 집합은 어떤 사건이 발생한 경우의 수 또는 백분율로 요약할 수 있음
예시암 수술 후 사망 여부를 나타내는 데이터(1=생존, 0=사망)
= 이진자료

7) 비, 비율, 율

ratio

두 개 숫자의 상대적 크기를 비교한 것

  • 분자와 분모가 서로 독립적인 관계로 서로 다른 범주일 때 사용
공식
예시성비, 인구밀도(인구/면적)
비율
proportion

비의 특수한 형태로 분모에 분자가 포함

예시전체 지원자 중 경력 지원자의 비율: 경력 지원자/(신입 지원자+경력 지원자)
rate

특정기간 동안에 발생된 사건을 그 사건의 위험에 노출된 총 횟수(건수, 사람수)로 나눈 것

  • 보통 천분율(‰)로 표현
예시이혼의 빈도를 나타내는 지표로서 1년 동안의 이혼건수를 그 해 중간시점의 인구로 나누어 천분비로 산출한 조이혼율

자료의 정리

1) 표(table)

도수분포표
frequency table

수집된 자료를 적절한 등급(class) 또는 범주(category)로 분류하고 각 등급에 해당하는 빈도수 등을 정리한 표

  • 자료의 특성을 요약하고 정리하는 기술적 통계학에서 가장 기본적인 역할을 수행
계급
class

양적 자료에서 숫자 범주로 나눈 관찰값, 몇 개의 관찰값을 하나의 범주로 묶은 것

= 등급
범주
category

질적 자료에서 등급을 따질 수 없을 때 사용하는 관찰값

등급구간
class interval

등급의 간격

공식
예시구간 = 5.0
= 계급구간
정확한계
exact limit

연속적 자료를 등급으로 묶을 때 관찰값이 포함되어 있는 정확한 범위

예시체중(X)가 ...35~39, 40~44, 45~49...로 나누어져 있다면 정확한계는 39.5~44.5
중간점
midpoint

하한계(lower limit)와 상한계(upper limit)의 중간에 해당하는 수치, 등급의 대푯값

도수
frequency

각 구간에 해당하는 관찰된 수, 빈도수, 절대도수(absolute frequency)

상대빈도
relative frequency

각 범주에 속하는 빈도수가 전체관찰수(n)에 비해 차지하는 값

공식
= 상대도수
백분률, 퍼센트
percent, percentage

상대빈도에 100을 곱해 표준화한 값

공식
누적빈도
cumulative frequency

어떤 등급에 해당되는 빈도를 포함해서 그 이하 또는 그 이상에 있는 모든 빈도를 합한 것

= 누적도수
누적상대도수
cumulative relative frequency

한 집단에서 어떤 등급 이상 또는 이하에 해당되는 누적빈도가 전체관찰대상 중 차지하는 비율

= 상대누적도수

2) 그림(graph)

막대그래프범주형 자료, 이산적 자료
bar chart

표현값에 비례하는 높이를 지닌 직사각형 막대로 범주형 데이터를 표현하는 차트나 그래프

  • 축이 0에서 시작하면 차이를 구분하기 힘들기 때문에 특정 틀(긍정적, 부정적)에 편향되지 않는 선에서 차이를 잘 보여줄 수 있는 '논리적이고 의미 있는 기준선'부터 막대그래프를 보여주기도 함
= 막대그림표, 막대차트
점그래프연속적 자료
dot plot

데이터들의 분포를 점으로 나타내주는 도표

  • 자료를 흐트려서(jittering) 데이터 포인트들이 서로 겹치지 않게 보이게 하는 시각적 효과를 줄 수 있음
= 점도표, dot graph, dot diagram, strip chart
히스토그램연속적 자료
histogram

도수분포표를 막대그림표로 나타낸 것

  • 비모수적 밀도추정의 가장 간단한 형태로 관측된 데이터로부터 히스토그램을 만든 후 히스토그램을 정규화하여 확률밀도함수로 사용할 수 있음
  • 막대그래프에서는 막대의 가로 길이에 의미가 없지만 히스토그램에서는 막대의 가로 길이는 모든 등급에서 동일한 값을 지녀야 함
= 단변량 히스토그램(univariate histogram)
경험적 히스토그램
empirical histogram

여러 차례 반복적으로 관측한 합의 자료를 구간별로 분류하고 구간별 도수를 계산한 뒤 도수를 밀도단위로 바꾸어 밀도단위 히스토그램으로 나타낸 것

확률 히스토그램
probability histogram

상자의 내용물 및 추출횟수로부터 합이 각각의 값으로 실현될 확률을 계산하여 이를 그래프로 나타낸 것

정규 히스토그램
normalized histogram

측정된 스케일로 이루어진 데이터를 연속적인 간격으로 나누고 각 간격에서 관측되는 표본의 빈도를 카운트하여, 그값을 막대의 높이로 하여 데이터의 밀도를 표현한 것

상자그림연속적 자료
box-and-whisker plot

가공하지 않은 자료 그대로를 이용하여 그린 것이 아니라, 자료로부터 얻어낸 통계량인 5가지 요약 수치(최솟값, 제 1사분위, 제 2사분위, 제 3사분위, 최댓값)를 가지고 그린 그래프

= 상자수염도, 상자그림(box plot)
lower whisker

상자그림에서 최솟값

= min whisker
upper whisker

상자그림에서 최댓값

= max whisker
선그래프연속적 자료
polygon, line graph

각 등급구간의 중간점에 해당되는 점 위에서 그 등급의 빈도수에 점을 찍어 그 점들을 이어서 나타낸 그래프

  • 연속적 자료에서만 사용, 질적 자료나 양적 자료에서의 이산적 자료에서는 사용할 수 없음
= 꺾은선그림표
도수[빈도]다각형같은 변수에 대해 여러 가지 경우 분석
frequency [distribution] polygon

도수 분포를 나타내는 막대그래프에서, 직사각형의 윗변 중점을 잡고 도수가 0인 계급을 하나식 추가하여 차례로 선분으로 연결하여 이루어지는 꺾은선그래프의 일종. 도수분포를 꺾은 선 그래프의 형태로 도수의 변화량을 표시하여 다각형 모양으로 표현한 것

  • 같은 변수에 대한 여러 가지의 경우를 분석할 때 유용(히스토그램의 경우 여러 그래프를 겹쳐 그리면 지저분해지기 마련인데, 데이터가 다각형 형태로 나타나 비교가 용이)
  • 도수분포다각형의 계급을 점차 줄여 도수를 많이 취할수록 다각형 모양의 그래프는 점차 곡선이 되어 가는데 이때 생기는 곡선이 도수분포곡선
  • 분포다각형의 선과 x축이 이루는 도형의 넓이는 막대그래프의 막대들의 넓이의 합과 같음
= 분포다각형(distribution polygon), 도수분포다각형
누적도수[빈도]곡선
ogive

도수분포표의 각 등급구간에서 누적백분율만큼 올라가서 점을 찍고 각 점을 연결한 것

= cumulative percentage curve, 누적백분율곡선
산포도두 변수 간 관련성을 대략적으로 파악하고 싶을 때
scatter plot

두 변수 간의 관계를 알아보기 위하여 두 변숫값을 나타내는 점을 도표에 나타낸 것

분포의 특성

대푯값
representative value

집중화경향을 나타내는 수치로 주어진 자료를 대표하는 특정 값

  • 대푯값의 의미를 지니려면 그 위치가 비교적 중간 부근에 위치해야 함
중심경향성, 중심성향
central tendency

관찰된 자료가 어느 위치에 집중되어 있는가를 나타냄

예시산술평균, 중앙값, 최빈값
= 집중화경향, 중심경향치
분산도
degree of dispersion

관찰된 자료가 흩어져 있는 정도

예시표준편차(또는 분산)
왜도, 기움, 비대칭도
skewness

자료의 분포가 대칭에서 벗어난 정도

1) 중심경향성

최빈값
mode

빈도수가 가장 많이 발생한 관찰값

  • 질적 자료와 이산적 자료의 분포에서 빈도수가 어느 곳에 가장 많이 모여 있는가를 보여줌
예시가장 많은 고객들이 원하는 물건을 찾고 싶을 때
최빈계급
modal class

연속적 자료를 등급으로 묶어서 각 등급에 해당되는 빈도수를 적을 때 빈도수가 많은 등급

  • 연속적 자료의 분포에서 빈도수가 가장 높은 등급이 어느 곳에 가장 많이 모여 있는가를 보여줌
예시100개 타이어의 수명을 등급으로 나누었을 때 타이어 수명의 최빈등급은 빈도수가 가장 높은 등급, 최빈값은 해당 등급의 중간점
= 최빈등급
중앙값
median

수치로된 자료(양적 자료)를 크기순서대로 나열할 때, 가장 가운데에 위치하는 관찰값

  • 극단적 관찰값의 영향을 받지 않으므로 극단적인 비대칭분포에서는 다른 집중화경향을 나타내는 척도들보다 그 집단의 대푯값으로 적절하게 사용될 수 있음
공식
예시n이 짝수일 때는 위 계산식을 사용해서 나온 값을 (n+1)/2번째 관찰값이라고 할 때 해당 관찰값의 양 옆에 있는 관찰값의 평균이 중앙값
= 중위수, 중간값, 메디안
연속적 자료의 도수분포표에서 중앙값의 계산
공식
  • : 중앙값이 있는 구간의 정확하한계
  • : L까지의 누적빈도
  • : 중앙값이 있는 구간의 빈도
  • : 관찰수
  • : 구간의 크기
산술평균
arithmetic mean

모든 측정값을 합산하여 이 값을 전체 자료의 수로 나누어 준 값

  • 추측통계에서 가장 중요한 집중화경향값으로 사용됨
= 평균
등급으로 묶여진 도수분포표에서의 산술평균
arithmetic mean from a frequency table
공식
  • : 각 등급의 빈도
  • : 해당 등급의 중간점
  • : 전체등급수
  • : 전체관찰수
가중산술평균자료값이 가지는 중요성이 다를 때
weighted arithmetic mean

각 항의 수치에 그 중요도에 비례하는 계수를 곱한 다음 산출한 평균

  • 교락 요인(confounder)을 통제하는 데 사용
공식
  • : k개 집단의 전체평균
  • : 각 집단의 관찰수
  • : 각 집단 관찰수에 대응하는 평균
= weighted average

2) 분산도

범위
range

관찰값들 중에서 가장 큰 수치와 가장 작은 수치의 차이

공식
평균편차
average deviation

관찰값과 산술평균과의 차이들의 평균

공식
분산
variance

편차 제곱의 평균

공식
표준편차
standard deviation

분산의 제곱근

공식
도수분포표에서 표준편차
공식
  • : 변수
  • : 빈도수

3) 비대칭도

피어슨의 비대칭도계수
Pearson's coefficient of skewness

산술평균과 중앙값의 차이가 표준편차에 비하여 얼마나 떨어져 있는가를 나타내는 것

  • 양(+)의 값: 오른쪽 꼬리분표
  • 음(-)의 값: 왼쪽 꼬리분표
공식
  • : 피어슨의 비대칭도
  • : 표준편차
  • : 중앙값

확률

1) 이론

상대빈도정의
relative frequency definition

어떤 사건이 나타날 확률은 실험을 무한에 가깝게 계속적으로 시행했을 때, 전체시행횟수에서 그 사건이 나타나는 빈도수

공식
  • : A사건이 발생할 확률
  • : 총시행횟수
  • : A사건이 발행한 횟수
동등발생정의
equally likely definition

어떤 실험이나 관찰의 결과로 나타날 수 있는 모든 경우들이 각각 동일한 가능성을 가지고 발생할 것이라는 가정하에서 특정사건 A가 일어날 확률을 정의한 것, 전체의 경우 중에서 어떤 특정사건이 차지하는 경우의 구성비율(proportion)과 같은 의미를 지님

  • 확률 = 구성비율
집합집합이론
set

개체 또는 원소(elements)의 모임

사건확률이론
events

실험이나 관찰에서 얻은 결과

= 사상
원소집합이론
element

집합을 형성하는 개별사물

단일사건확률이론
simple event

여러 개의 사건 가운데 한 개의 사건

전체집합집합이론
universal set

특정한 문제에서 가능한 모든 원소의 집합

표본공간확률이론
sample space

실험이나 관찰에서 생길 수 있는 모든 사건의 모임

예시S = {H, T}
부분집합집합이론

모든 원소 중 일부를 나타내는 집합

여집합집합이론
complementary sets

전체집합과 관심이 되는 부분집합 A가 정의되면 전체집합 중에서 집합 A에 포함되지 않는 집합

공집합집합이론
empty set

집합 A와 집합 B에 공통적으로 속해 있는 원소만을 포함하는 집합

= 배타적 집합
합집합집합이론
union of sets

집합 A 또는 집합 B에 속하는 원소들로 구성된 집합

확률의 덧셈법칙확률이론
addition law

집합이론의 합집합 개념에 대응되는 확률

공식
확률의 덧셈법칙: 배타적 사건일 때 확률이론
addition law

A사건과 B사건이 서로 배타적 사건(mutually exclusive events)일 때 확률의 덧셈법칙

공식
교집합집합이론
intersection of sets

집합 A와 집합 B에 공통적으로 속해 있는 원소만을 포함하는 집합

곱셈법칙확률이론
multiplication law

집합이론의 교집합 개념에 대응되는 확률, 사건 A와 B가 동시에 일어날 확률은 사건 A가 일어날 확률과 사건 A가 일어난 다음 사건 B가 일어날 확률을 곱한 것과 같다는 의미

공식
조건부확률확률이론
conditional probability

바로 전의 실험결과에 의해 변화된 표본 공간에서 어떤 사건이 일어날 확률, 사건 B가 발생했다는 조건하에서 사건 A가 발생할 확률

공식
독립사건확률이론
independent event

처음에 어떤 결과가 나왔느냐 하는 것이 다음에 어떤 사건이 발생할 확률에 아무 영향을 주지 않는 경우, 사건 A가 나올 확률은 사건 B의 결과에 관계없이 언제나 같음

공식
예시복원추출 시
종속사건확률이론
dependent event

조건부 확률처럼 한 사건의 발생이 다음에 발생할 사건에 영향을 주는 경우

예시비복원추출 시
종속사건의 곱셈법칙확률이론
공식
예시흰공과 검은공이 있을 때 비복원 추출로 두 번 모두 흰공이 나올 확률
독립사건의 곱셈법칙확률이론
공식
예시흰공과 검은공이 있을 때 복원 추출로 두 번 모두 흰공이 나올 확률
베이즈정리베이즈통계학
Bayes' theorem
  • 실험의 결과로써 얻은 정보를 토대로 하여 어떤 사건의 알려져 있지 않은 확률을 구하려고 하는 가장 간단한 방법
공식
사전확률
prior probability

어떤 특정 사건에 관한 선험적 믿음

= 선험적 확률
가능도, 우도
likelihood

주어진 자료를 관측할 확률

사후확률
posterior probability

자료를 추가하여 사전확률을 업데이트한 확률

2) 분포

확률변수
random variable

일정한 확률을 가지고 발생하는 사건에 수치를 부여한 것, 확률시행으로 인해 나타날 수 있는 여러 사건들에 대해 일정한 수치를 부여한 것, 보통 X로 표시

예시P(X=1) = 1/2
확률분포
probability distribution

어떤 확률변수가 취할 수 있는 모든 값들과 이 값들이 나타날 확률을 표시한 것, 한 변수에 대해 어떤 실험이나 관찰의 결과로 나타날 수 있는 모든 상황과 각 상황이 나타날 확률을 표시한 것, 확률변수가 취하는 값에 대해 합이 1인 확률이 어떻게 분포되어 있는지를 나타낸 것, 한 변수가 어떤 실험이나 관찰의 결과로 나타날 수 있는 모든 상황과 각 상황이 나타날 확률을 표시한 것

확률변수 1개

이산확률분포
이산확률변수
discrete random variable

확률변수가 취할 수 있는 값의 수가 유한하거나 무한하더라도 셀 수 있는(countable) 확률변수

이산확률분포
discrete probability distribution

이산확률변수의 확률분포

예시이항분포, 다항분포, 초기하분포
이항확률변수
binominal random variable

여러 번 베르누이시행을 할 때 성공의 횟수 또는 실패의 횟수

이항확률분포
binomial random distribution

이항확률변수의 확률분포

= 이항분포(binomial distribution)
연속확률분포
연속확률변수
continuous random variable

확률변수가 취할 수 있는 값이 일정한 구간 내의 실수로서 그 수가 무한한 확률변수

연속확률분포
continuous probability distribution

연속확률변수의 확률분포

예시균일분포, 정규분포
균일분포
uniform distribution

확률변수가 취하는 모든 구간에서 각 사건의 발생확률이 일정한 분포

공식
= 균등분포
정규분포
normal distribution

정규곡선(normal curve)으로부터 유래한 분포로 19세기 초 가우스(Carl F.Gauss)가 물리계측의 오차를 계산하는 과정에서 도입된 확률분포

  • 정규분포의 모양과 위치를 결정하는 것은 분포의 평균과 표준편차(분포의 평균(μ)과 표준편차(σ)를 제외하고는 모두 상수이고 X는 확률변수이기 떄문)
  • 정규분포의 확률밀도함수는 평균(μ)을 중심으로 대칭인 종모양
  • 정규곡선은 X축에 맞닿지 않으므로 확률변수 X가 취할 수 있는 값의 범위는 −∞ < X < +∞
  • 분포의 평균(μ)과 표준편차(σ)가 어떤 값을 갖더라도, 정규곡선 X축 사이의 전체 면적은 1
공식
  • : 3.1416(원주율[상수])
  • : 2.7183(자연대수[상수])
  • : 분포의 평균
  • : 분포의 표준편차
= 가우스분포(Gaussian distribution)
표준정규분포
standard normal distribution

모든 정규분포를 평균 μ=0, 표준편차 σ=1 이 되도록 표준화한 분포

  • 어떤 확률변수 X의 관찰값이 그 분포의 평균으로부터 표준편차의 몇 배 정도나 떨어져있는가를 다음과 같이 표준화된 확률변수 Z로 나타냄
공식
= Z분포

확률변수 2개

한 실험에서 두 개 이상의 확률변수가 상호작용하면서 동시에 발생하는 경우도 있습니다.

결합확률분포
joint probability distribution

두 개 이상의 확률변수가 관련된 확률분포

= 결합분포(joint distribution)
주변확률분포
marginal probability distribution

X와 Y의 결합분포에서 X 또는 Y의 어느 하나만의 확률분포로 결합확률분포의 주변(margin)에 표시되기 때문에 주변확률분포

= 주변분포(marginal distribution)

3) 함수

확률분포함수
probability distribution function

이산확률변수에서 특정 값에 대한 확률을 나타내는 함수, 이산확률변수 X의 분포를 나타내는 함수

  • 함수값 = 확률
확률질량함수
probability mass function, PMF

이산확률변수에서 특정 값에 대한 확률을 나타내는 함수, 이산확률변수 X의 분포를 나타내는 함수

  • 함수값 = 확률
확률밀도함수
probability density function, PDF

연속확률변수에서 확률변수가 취할 수 있는 모든 값에 대해 그 값을 가질 확률이 얼마인지를 알려주는 함수, 확률변수의 분포를 나타내는 함수, 연속확률분포의 양상을 나타내는 곡선을 식으로 표현한 것, 연속확률변수 X의 분포를 나타내는 함수

  • 함수의 넓이 = 확률
= 확률함수(probability function)
누적분포함수
cumulative distribution function, CDF

확률변수와 그 확률변수가 있는 값 이하의 값을 취하는 확률과의 관계를 나타낸 함수

  • 확률밀도함수를 적분하면 누적분포함수가 됨
= 분포함수(distribution function)
경험적 누적분포함수
empirical cumulative distribution function, ECDF

EDCF는 n개의 데이터 포인트 각각에서 1/n 씩 점프하는 계단 함수

= 누적분포함수(cumulative distribution function, CDF)
상보적 누적분포함수
complementary cumulative distribution function, CCDF

어떤 한 점의 x값 이상의 모든 x값들이 갖는 비율을 누적한 값

공식

4) 기댓값과 분산

기댓값확률분포의 집중화경향을 알고 싶을 때
expected value

확률변수가 취할 수 있는 모든 값들의 평균으로 평균값(average), 가중평균(weighted average)와 같은 개념

공식
분산확률분포의 분산도를 알고 싶을 때
variance

확률변수들이 기댓값 E(X)를 중심으로 얼마나 흩어져 있는가를 나타내는 것

공식
표준편차확률분포의 표준편차를 알고 싶을 때
standard deviation
공식

추측통계학

1) 분류

모수통계학
parametric statistics
  • 모집단의 분포모양이 정규분포라는 가정이 필요
  • 대체로 수량적 자료 중에서도 연속적 자료가 사용됨
비모수통계학
nonparametric statistics
  • 모집단의 분포모양에 대한 가정이 필요없고 표본의 크기가 작아도 됨
  • 질적 자료를 사용하거나 수량적 자료라 하더라도 빈도수와 같은 비연속적 자료를 많이 사용

2) 용어

표본추출 방법

확률표본추출
probability sampling

모집단에 속해 있는 각 구성원이 표본으로 선택될 가능성이 일정하게 되도록 하는 표본추출방법

비확률표본추출확률표본추출(무작위추출)이 불가능하거나 비경제적일 때
nonprobability sampling

연구자가 모집단과 비슷하다고 생각되는 표본을 임의로 추출해 내는 방법

  • 연구자의 주관에 따라 표본이 선택되므로, 오차에 대한 분석이 불가능
확률표본추출 방법
단순무작위추출
simple random sampling

난수표(random number)를 사용하거나 기타의 방법을 동원하여 모집단에 포함되어 있는 모든 구성원이 뽑힐 확률을 각각 같도록 하는 추출방법

  • 모집단의 모든 구성원의 성격이 서로 비슷하고, 분석도 단일성격에 대한 것일 때 더욱 효과적
= 임의할당(randomization)
층별추출
stratified sampling

표본을 뽑기 전에 모집단을 성격에 따라 여러 집단 또는 여러 층으로 분류한 다음 각 층에서 표본을 추출하는 방법

예시종교의 분포를 파악하려는 경우에 전체모집단을 연령별, 성별, 지역별로 구분한 다음, 각 집단별로 무작위추출을 하는 것
= 층화표집, 층화추출, 층화 표본추출, 블록화(blocking)
비례적 층별추출
proportional stratified sampling

각 층에서의 표본의 사례수, 즉 표본크기를 정할 때 모집단에서 각 층이 차지하는 구성비율을 고려해서 표본을 추출하는 방법

군집추출
cluster sampling

표본을 뽑을 때 직접 개별적인 구성원을 선택하는 것이 아니라 자연적 또는 인위적인 집단을 먼저 뽑고, 그 집단 중에서 필요한 만큼의 표본을 추출하는 경우

예시서울시내 초등학교 3학년 학생들의 평균 지능을 알기 원할 때 개별적인 학생을 구성원으로 삼는 것이 아니라, 학교단위 또는 학급단위를 구성원으로 간주하여 그중에서 무작위로 몇 개의 학교를 뽑거나 몇 개의 학급들을 뽑는 방법
체계적추출
systematic sampling

하나의 모집단배열이 무작위로 되어 있을 때 체계적 수단을 동원하여 표본을 추출하는 방법

예시어느 잡지사가 구독자의 의견을 묻고 싶을 때, 구독자카드에 번호를 붙인 다음, 매 10번째 또는 매 100번째 구독자를 표본으로 하여 질문하는 것
비확률표본추출 방법
편의추출
convenience sampling

모집단에서 연구자가 가장 손쉽게 구할 수 있는 구성원을 선택하여 표본으로 삼는 표본추출방법

예시어떤 수업방법의 효율성을 알아보기 위하여 직접 중학교 학생들에게 그 방법을 실험하려고 할 때, 연구자의 모교를 선택하여 실험하는 것
판단추출
judgment sampling

모집단의 성격에 대하여 어느 정도 전문지식이 있는 사람이, 그가 판단하기에 가장 효과적이라고 생각되는 표본을 찾는 방법

  • 모집단의 성격이 매우 이질적이거나, 여러 가지 사정으로 인하여 표본의 수가 적을 때 효과적으로 사용됨
예시물가의 변동을 대표하는 소비자물가지수를 계산할 때 모집단을 이루는 수많은 상품 중에서 물가변동을 잘 반영하는 몇 개의 품목만을 표본으로 삼아 계산하는 것

표본추출오차와 비표본추출오차

표본추출오차
sampling error

모집단을 대표할 수 있는 전형적인 구성요소를 표본으로 선택하지 못했기 때문에 발생하는 오류

  • 요인1: 표본의 크기 떄문에 생기는 우연에 의한 오류
  • 요인2: 편의(bias) 때문에 발생하는 오류로 모집단을 대표할 수 없는 비전형적인 구성요소를 표본으로 뽑았기 때문에 일어나는 오류
비표본추출오차
non-sampling error

표본의 선택방법과는 관계없이 주로 표본의 특성값을 측정하는 방법이 부정확하기 때문에 발생하는 측정오차(measurement error)가 주류를 이루는 오류

  • 한 사람에게 두 사람이 같은 질문을 하였지만, 서로 다른 대답을 얻는 경우(집문하는 사람의 질문방법, 설명부족 등이 원인)
  • 설문지를 통해 개개인의 특성 및 태도를 조사 또는 분석할 때에도 연구에 따라 설문지의 결과에 차이가 발생하는 경우(설문지에 대압하는 사람의 개인적인 반응양식 작용)
  • 연구가 어떤 목적에 사용되는가를 조사대상자에게 알렸을 때 오히려 부적확한 반응을 얻는 경우(생활수준을 알기 위해 학생들에게 보호자의 월수입을 물을 때에는 조금 과장하여 대답할 가능성이 있음, 장학금 대상자를 선발하기 위하여 질문을 할 때에는 실제보다 낮은 수준으로 대답할 가능성 있음)
편의
sampling bias

표본을 추출할 때 모집단의 구성원 중에서 특수한 성격을 가지고 있는 구성원을 선호하는 경향

  • 표본의 크기를 늘린다 해도 편의 때문에 발생하는 표본추출오차는 줄어들지 않음

통계량과 표집분포

집단
유한모집단
finite population

모집단의 구성원수가 유한한 모집단

무한모집단
infinite population

모집단을 구성하고 있는 구성요소가 무한한 것

예시어느 공장에서 타이어를 만들고 있다고 할 떄 공장의 생산능력은 연간 몇 십만 본으로 규정되어 잇어 유한모집단으로 생각되기 쉬우나 끊임없이 연료를 공급한다면 타이어를 무한대로 생산할 수 있는 경우 | 표본을 다시 복원하는 복원추출
모수와 통계량 계산: 유한모집단
모평균
population mean

모집단의 산술평균

공식
  • : 변수
  • : N개의 사례수로 구성된 모집단의 개별관찰치
  • : 모집단의 관찰수
표본평균
sample mean

표본의 산술평균

공식
  • : 변수 또는 관찰값
  • : N개로 구성된 모집단에서 n개의 표본을 뽑았을 때 표본의 관찰값
  • : 표본집단의 관찰수
모분산
population variance

모집단의 각 관찰값과 평균과의 편차를 제곱하여 그 평균을 구한 것

  • 관찰값들 간의 차이가 클수록 커짐
공식
표본분산
sample variance

표본의 각 관찰값과 평균과의 편차를 제곱하여 그 평균을 구한 것

공식
모표준편차
population standard deviation

모집단의 표준편차

공식
표본표준편차
sample standard deviation

표본의 표준편차

공식
모수와 통계량 계산: 무한모집단

무한모집단의 특성들은 모집단의 이산확률분포에서 찾을 수 있습니다.

모평균
공식
모분산
공식
모표준편차
공식

평균의 표집분포

표집분포
sampling distribution

모집단에서 일정한 크기로 뽑을 수 있는 표본을 모두 뽑았을 때, 그 모든 표본의 특성치, 즉 통계량의 확률분포를 말함

= 표본분포
평균
평균의 표집분포
sampling distribution of means

선택가능한 모든 표본들로부터 계산된 표본평균들의 확률분포 | 특정한 모집단에서 동일한 크기로 가능한 모든 표본을 뽑아서 각각의 표본들의 평균을 계산했을 때, 그 평균들의 확률분포

평균의 표집분포의 평균
공식
평균의 표집분포의 평균과 모집단 평균
공식
분산
평균의 표집분포의 분산
공식

모집단의 분산을 알고 있다면 아래 공식을 이용할 수 있습니다. 표본 크기가 n일 때 평균의 표집분포의 분산은 모집단의 분산을 표본크기 n으로 나눈 것과 같습니다.

평균의 표집분포의 분산과 표준편차
전제
공식

표집분포 모양

평균의 표집분포 모양은 모집단의 정규분포 여부와 표본크기 n이 변화함에 따라 달라집니다.

모집단이 정규분포일 때
모집단이 정규분포일 때 평균의 표집분포

모집단이 정규분포일 때 평균의 표집분포는 표본의 크기 n에 관계없이 언제나 정규분포를 이룸

공식
모집단이 비정규분포 일 때
중심극한정리
central limit theorem

모집단의 분포모양과는 관계없이 평균(μ), 표준편차(σ)인 모집단에서 크기가 n인 선택가능한 모든 표본을 뽑을 때 평균의 표집분포는 n을 증가시킬수록 정규분포에 접근하게 됨

  • 통계학에서 가장 중요한 정리: 모집단의 분포모양과는 상관없이 표본의 크기가 커지면 표집분포가 정규분포를 이루어 정규분포의 성질을 쉽게 이용할 수 있음
  • 대개 표본의 크기가 30 이상
전제
공식
모집단의 크기가 작을 때
모집단이 작을 때 표본평균의 표준편차
  • 표본크기가 모집단크기의 5% 미만일 때에는 조정계수를 무시해도 됨
공식
  • : 모집단의 크기
  • : 표본의 크기
  • : 조정계수(correction factor)

분산 및 비율의 표집분포

분산의 표집분포
분산의 표집분포

어떤 모집단이 σ^2의 분산을 가질 때, 이 모집단으로부터 크기가 동일하게 선택가능한 모든 표본을 뽑아서 각각의 분산을 계산했을 때, 표본분산 S^2가 이루는 분포

  • 표본분산의 기댓값이 모분산과 일치한다는 특성은 모집단의 분포에 상관없이 성립
공식
카이제곱분포
chi-square distribution
  • 표본분산의 기댓값이 모분산과 일치한다는 특성은 모집단의 분포에 상관없이 성립
  • 자유도는 표본의 크기 n에서 1을 뺀 것
  • 자유도가 커질수록 카이제곱분포는 정규분포와 가까워짐
전제
공식
  • : 모분산
  • : 표본분산
비율의 표집분포
비율의 표집분포
sampling distribution of proportion

동일한 모집단에서 선택가능한 모든 표본을 뽑아 구한 비율들의 분포

전제
공식
정규근사법
normal approximation to binomial distribution

정규분포를 사용하여 이항분포의 확률을 구하는 방법

전제
공식

통계 분석 방법

통계분석
statistical analysis

데이터셋의 변수가 서로 어떻게 연관되어 있는지를 이해하는 과정

1) 밀도 추정

밀도추정
density estimation

어떤 변수가 가질 수 있는 값 및 그 값을 가질 가능성의 정도를 추정하는 것, 데이터로부터 변수가 가질 수 있는 모든 값의 밀도(확률)을 추정하는 것, 어떤 변수의 확률밀도함수를 추정하는 것

모수적 밀도 추정
parametric density estimation

특정한 종류의 분포를 따른다는 가정하에 확률밀도함수를 추정하는 방법

  • 확률변수가 정규분포를 따른다고 가정하면 관측 데이터로부터 평균과 분산을 구하면 됨
비모수적 밀도 추정
nonparametric density estimation

확률밀도함수를 추정할 때 함수의 형태에 대한 가정(assumptions) 없이 주어진 자료로부터 직접 확률밀도함수를 추정하는 방법

예시히스토그램(histogram), 커널 방법(kernel method), 직교열 방법(orthogonal series method), 최근접 이웃 방법(nearest neighbor method), 벌점 가능도(penalized likelihood), 다항 스플라인 모형(polynomial spline), 가변 커널(variable kernel), 사영 추적(projection pursuit)
커널밀도추정
kernel density estimation, KDE
전제
공식
  • : 확률변수
  • : 데이터
  • : 데이터 갯수
  • : 커널함수
  • : 커널함수의 대역폭 또는 평활 매개변수(smoothing parameter)

2) 두 변수 간의 관련성 분석

공분산두 변수가 동시에 변하는 정도를 알고 싶을 때
covariance

두 확률변수의 분포가 결합확률분포를 이룰 때 해당 분포의 분산

  • 확률변수 X와 Y가 같은 모양으로 변화하면 공분산은 커짐
  • 확률변수 X와 Y가 서로 다른 모양으로 변화하면 공분산은 작아짐
공식
상관분석두 변수 간의 관련성을 알고 싶을 때
correlation analysis

두 변수 간의 관계의 강도, 즉 두 변수가 서로 얼마나 밀접하게 관련되어 있는지를 상관계수(correlation coefficient)를 이용해 분석하는 것

회귀분석한 변수로부터 다른 변수의 변화를 예측하고 싶을 때
regression analysis

1개의 종속변수와 1개 또는 2개 이상의 독립변수들 간의 관련성을 규명할 수 있는 수학적 모형을 측정된 변수들의 자료로부터 회귀식

3) 범주형 자료 분석

절대위험도
absolute risk

각 집단에서 불행한 사건을 겪으리라고 예상되는 비율

상대위험도
relative risk

위험요인이 있는 집단의 절대위험도 / 대조군의 절대위험도

  • 개개인에 대한 비교를 하는 경우 유용함
  • 상대위험도 값이 높아도 절대위험도가 작을 경우 실제적으로 위험하지 않을 수 있음
기대빈도
expected frequency

주어진 집단에서 특정 사건에 일어나는 개수의 예측값

승산
odds

사건이 일어날 가능성 대 사건이 일어나지 않을 가능성. 성공할 확률 대비 실패할 확률

예시우승의 경우의 수 / 우승하지 못하는 경우의 수 | 오즈가 1/31 이면 32개의 경우의 수중 31개는 한국이 우승하지 못하는 경우, 1개가 한국이 우승하는 경우
= 오즈, 비율비
승산비

위험요인이 있는 집단의 승산 / 대조군의 승산

= 오즈비

역설

심슨의 역설
Simpson's Paradox

제3의 요인으로 전체자료를 세분화했을 때 정반대의 결과가 나오는 것

  • 가중평균 이용해 교락 변수 통제

참고 문헌

...

©2022 Snug Archive. All rights reserved.

Contact me at snugarchive@gmail.com.