일상에 필요한 통계학 개념

Statistic
Tip
Productivity
Author

Taeyoon Kim

Published

May 17, 2025

Modified

June 30, 2025

이 글의 목적은 통계의 “철학”을 우리 삶에서 실제로 적용하는 방법을 소개하고 통계가 작동하는 방식을 더 명확하게 설명 하는 것입니다. 글을 읽고 나면 생각보다 실생활에 통계가 많이 사용된 다는 것을 알게 될 것입니다.

Note

들어가기 전에 이글은 원문을 번역하고 요약한 글입니다. 자세한 것은 원문을 확인하세요.

1 추정(Estimation): 근사치 구하기

통계에서 무언가를 “추정”하는 것은 일반적입니다. 학생들의 평균 체질량 지수를 추정할 수도 있고 더 복잡한 예로 여러 변수 간의 회귀를 가장 잘 나타내는 계수 벡터등을 추정합니다.

추정에서의 중요한 사실은 우리가 진정한 추정량을 결코 알 수 없다는 사실입니다. 예를 들어 시험 전에 학생들이 공부하는 평균 시간을 알고 싶다고 가정해 봅시다. 이를 추정하는 방법은 수업 중에 여러 학생에게 물어보고 평균을 계산하는 것입니다. 그러나 전 세계 모든 학생을 동시에 조사하는 것은 불가능합니다.

그렇다면 우리가 얻은 추정량이 충분히 좋은지 여부는 어떻게 우리의 목표와 관련이 있는지 어떻게 알 수 있을까요? 우리는 아래와 같이 편향과 분산을 통해 추정 값에 대하여 판단합니다.

1.1 편향되지 않은 추정

편향의 정의는 단순히 원래 목표로부터의 벗어남을 의미 합니다. 연구된 매개변수의 기대값(즉, 무한한 수의 학생을 인터뷰할 수 있다면 얻어야 할 값)과 실제(또는 진정한) 매개변수 간의 차이가 0이면 추정량은 편향되지 않은 것으로 간주될 수 있습니다. 하지만 우리의 추정량이 편향되었는지 아닌지를 아는 것은 쉽지 않습니다.

예를 들어 수업에 출석한 학생에게만 평균 공부 시간을 질문하는 것은 수업에 출석하지 않은 학생은 우리의 질문에 답하지 않을 것이라는 것을 의미합니다. 그리고 수업에 가지 않는 학생들은 시험 공부를 덜 할 가능성이 있습니다.

1.2 낮은 분산을 가진 추정

분산은 측정 값의 퍼짐의 정도를 나타냅니다. 다시 말해 표본의 사람들이 평균에서 얼마나 벗어나는 경향이 있는지 알려줍니다. 반대로 분산이 0이라는 것은 모든 사람이 동일한 값을 갖는 것입니다.

이것은 중요합니다. 왜냐하면 편향되지 않은 추정량이 낮은 분산을 갖는다면 일반화할 수 있다고 확신할 수 있다는 것을 의미하기 때문입니다. 예를 들어 학생이 시험 전에 평균 4시간 동안 공부한다고 추정하고 이 추정이 편향되지 않고 낮은 분산을 갖는다는 것을 증명한다면 진정한 추정량은 4시간 근처일 가능성이 높습니다.

1.3 추론(Inferences): 예측하기

모든 추정의 목적은 추론을 하는 것입니다. 앞서 말했듯이 당신은 세상의 모든 정보를 가지고 있지 않고 적은 수의 데이터를 기반으로 일반화할 수 있는지 여부를 알고 싶습니다. 이때 통계학은 일반적으로 p-value을 계산하는 방법을 적용합니다.

예를 들어 약물이 LDL 콜레스테롤을 낮추는 데 효과적인지 알고 싶다고 가정합니다. 그렇다면 높은 LDL을 가진 사람들에게 그 약물을 투여하고 일주일 후에 높은 LDL을 가지고 있지만 약물을 복용하지 않은 사람들과의 차이를 비교합니다. 약물이 효과가 없다고 가정하면 우리가 얻은 결과(예: 약물을 복용한 사람들은 LDL이 10포인트 감소했고 위약을 복용한 사람들은 4포인트만 감소했습니다)를 얻을 확률을 계산할 수 있습니다.

만약 이 확률이 매우 낮다면 우리의 초기 가설이 사실이 아닐 수 있다고 추론할 수 있습니다. 즉, 약물이 LDL 콜레스테롤을 낮추는 데 효과적일 수 있다는 것입니다.

여기서 확률이 낮다는 것은 일반적으로 5%로 사용합니다. \(10 - 4 = 6\)의 차이가 발생할 확률이 5% 미만이라면 우리는 결과가 약물이 효과가 없다는 가설(귀무가설)을 받아들일 수 없고 반대로 약물이 효과적이라고 말합니다.

p-value이 5% 미만이라는 것은 실제로는 효과가 없더라도 효과가 있다고 결론(False positive) 내릴 5%의 위험을 가져간다는 것과 같습니다. 거짓 양성과 거짓 음성은 서로 반대로 움직이기 때문에 중간 절충점으로 5%를 사용하는 것입니다. 임상 분야에서는 아픈 사람에게 아무 이상이 없다고 말할 확률(False negative)을 최소화하는 것을 선호하기에 p-value 5%이 적절한지에 대한 큰 이견은 없습니다.

2 베이지안주의: 불확실성에 대한 이해

베이지안주의는 확률을 주관적인 믿음의 분포로 간주하며 새로운 정보가 들어올 때 그 믿음을 업데이트하는 사고방식입니다. 예를 들어, 보르도는 일요일마다 비가 온다고 믿었지만 최근 날씨가 화창했다면 자신의 기존 믿음을 현실에 맞게 조정해야 합니다. 이전에 일요일 95% 확률로 비가 온다고 생각했다면 새로운 정보에 따라 이 확률은 70%로 낮아질 수 있습니다.

베이지안 통계도 이와 비슷하게 작동합니다. 특정 약물이 혈당을 평균 3단위 낮춘다고 알려져 있었지만 최근 임상시험에서 평균 2단위의 효과만 보였다면 우리는 이 약물의 진짜 효과가 그 중간인 2.6일 가능성이 있다고 추정할 수 있습니다. 이러한 방식의 사고는 아래와 같은 일상 곳곳에서 유용하게 쓰입니다.

  • 학생들의 결석률 추정
  • 통증의 원인 분석
  • 건강에 대한 믿음을 과학적 연구로 조정

여기서 핵심은 새로운 정보가 생기면 믿음을 수정하라는 것입니다. 모든 정보를 같은 무게로 받아들이는 것이 아니라, 믿을 만한 출처(예: 논문 vs SNS 댓글)에 따라 가중치를 다르게 주면 됩니다. 이 방법론은 더 개방적이고 유연한 사고를 가능하게 해줍니다.

3 마치며

우리는 일상에서 어디서 주차 자리를 찾을 수 있을지, 어떤 대학이 당신에게 가장 적합한지등 언제나 추정을 합니다. 알고 있는 것을 바탕으로 근사치를 만드는 것은 자주 있는 일인 것입니다. 따라서 더 나은 추정을 하는 가장 좋은 방법은 당신의 추정에 있을 수 있는 편향과 분산 수준을 생각하는 것입니다. 자연스럽게 항상 추정 하고 있다는 것을 명심하는 것이 중요합니다.

이 글의 목표는 정확성이 아닌 통계적 방법에 대한 직관을 제공하는 것입니다. 이제 통계학에 대한 더 나은 이해를 갖게 되었길 바라며 당신에게 유용한 몇 가지 통계 개념을 배웠기를 바랍니다.

실생활의 문제에 통계적인 개념을 적용하는 것은 훌륭한 인식론적 습관입니다. 저는 우리의 대부분의 믿음이 우리의 인식론적 습관, 즉 매일매일의 습관에 기반하여 정보를 접근하는 방식에서 비롯된다고 믿습니다. 따라서 통계학은 당신에게 더 열린 사고와 명확한 표현 그리고 타인에게서 배우는 능력을 길러줄 것입니다.