임상 통계학

Clinical trial

Statistics

Author

Taeyoon Kim

Published

October 25, 2024

Modified

July 20, 2025

책 “강승호, 신약개발에 필요한 임상통계학, 자유 아카데미, 2022” 을 읽고 요약 정리한 것으로 많은 설명은 perplexity 를 사용해 덧붙였습니다. 책 전체 내용을 요약하지는 않았기 때문에 더 자세한 내용에 관심이 있으다면 책을 한번 읽어보시길 바랍니다.

1 임상 통계학의 개요

신약 개발에서 통계학은 여러 가지 중요한 역할을 수행합니다. 특히 임상 시험은 비용이 많이 들기 때문에 통계학적 지식을 이용해 계획하는 단계부터 비용과 편향을 줄이는 것이 매우 중요합니다.

임상시험 설계 및 분석: 신약 개발 과정에서 임상시험은 필수적인 단계이며, 이 과정에서 통계학은 시험의 설계와 결과 분석에 핵심적인 역할을 합니다. 임상시험은 의약품의 안전성과 유효성을 검증하기 위해 과학적으로 검증된 방식으로 대용량의 데이터를 수집하고, 이를 기반으로 통계적 분석을 통해 의미 있는 결과를 도출합니다. 이러한 과정에서 통계학은 임상시험 디자인의 오류를 줄이고 연구자의 편향을 최소화하는 데 기여합니다.
의사결정 지원: 통계학은 신약이 인류의 건강에 실제로 도움이 되는지, 그리고 시장에 출시할 가치가 있는지를 결정하는 데 중요한 역할을 합니다. 임상통계 전문가는 임상시험 계획서의 검토, 안전성 및 유효성의 심사 등에서 핵심적인 역할을 하며, 제약사들이 개발 우선순위를 정하는 데에도 통계적 근거를 제공합니다.
데이터 관리 및 해석: 신약 개발 과정에서 발생하는 방대한 데이터를 관리하고 해석하는 데 통계학이 필수적입니다. 데이터 과학의 일환으로 통계학은 임상시험의 초기 단계부터 데이터를 기록하고 관리하며, 이를 통해 유의미한 인사이트를 추출하는 데 기여합니다.
규제 승인 및 허가 지원: 신약이 시장에 출시되기 위해서는 규제 기관의 승인이 필요합니다. 이 과정에서 통계학은 허가심사 자료의 근거를 제공하는 중요한 역할을 하며, 글로벌 신약의 국내 허가 신청 시에도 필수적입니다.

1.1 임상적 유의성과 통계적 유의성

임상적 유의성과 통계적 유의성은 임상 연구에서 중요한 개념이지만 서로 다른 의미를 가집니다.

통계적 유의성: 연구 결과가 우연에 의해 발생할 가능성이 낮다는 것을 의미합니다. 일반적으로 p- 값이 미리 정해진 유의수준 (보통 5%) 보다 작을 때 통계적으로 유의하다고 판단합니다. 통계적 유의성은 데이터의 변동성을 고려하여 결과가 우연이 아닐 확률을 평가합니다.¹
임상적 유의성: 통계적으로 유의한 결과가 실제 임상 환경에서 환자에게 의미 있는 변화를 가져오는지를 임상의가 평가합니다. 즉, 통계적으로 유의한 차이가 임상적으로도 중요한 차이인지 판단하는 것입니다. 예를 들어, 고혈압 치료제의 경우, 통계적으로 유의한 혈압 감소가 실제로 환자의 건강에 긍정적인 영향을 미칠 만큼 충분히 큰지 평가해야 합니다.²

따라서, 통계적으로 유의한 결과가 항상 임상적으로 유의한 것은 아닙니다. 다만 통계적 유의성은 객관적인 자료를 통해 설명되지만 임상적 유의성은 임상의 주관이 들어가게 되는 차이가 있습니다. 하지만 무엇보다도 허가 기관으로 부터 품목 허가를 받기 위해서는 위의 두가지 유의성이 모두 적절히 설명되어야 합니다.

1.3 임상 시험에 자주 쓰이는 시험 디자인

1.3.1 평행 설계 (Parallel Design)

| group A  | group B  | group C  |
| -------- | -------- | -------- |
| patient1 | patient2 | patiant3 |
| -------- | -------- | -------- |
| patient4 | patient5 | patiant6 |

평행 설계는 임상시험 참가자들을 두 개 이상의 그룹으로 무작위로 배정하여, 각 그룹이 서로 다른 치료를 받도록 하는 방식입니다. 각 그룹은 시험 기간 동안 동일한 치료를 계속 받습니다.

장점: 이 설계는 단순하고 이해하기 쉬우며, 각 그룹 간의 비교가 명확합니다. 또한, 교차 설계에 비해 참가자가 적게 필요할 수 있습니다.
적용: 주로 만성 질환의 장기 치료 효과를 평가할 때 사용됩니다.⁵

1.3.2 교차 설계 (Cross-over Design)

patient1 —-> treatment A —-> wash out —> treatment B
partien2 —-> treatment B —-> wash out —-> treatment A

교차 설계는 참가자들이 두 개 이상의 치료를 순차적으로 받도록 하는 방식입니다. 각 참가자는 모든 치료를 받으며, 치료 사이에 세척 기간 (washout period) 을 두어 이전 치료의 영향을 최소화합니다.

장점: 각 참가자가 자신의 대조군 역할을 하므로, 개인 간 변동을 줄일 수 있습니다. 이는 통계적 검정력을 높이고, 필요한 참가자 수를 줄일 수 있습니다.
적용: 주로 급성 질환이나 일시적인 증상에 대한 치료 효과를 평가할 때 사용됩니다. 그러나 질병의 자연 경과가 빠르게 변하거나, 치료의 장기적 효과가 있는 경우에는 부적합할 수 있습니다

1.3.3 요인 설계?

| patient  | treatment A | treatment B | treatment A+B | no treatment |
| -------- | ----------- | ----------- | ------------- | ------------ |
| patient1 | yes         |             |               |              |
| patient2 |             | yes         |               |              |
| partien3 |             |             | yes           |              |

1.4 우위성 검정

우위성 검정 (Superiority Test) 은 임상시험에서 시험약이 대조약보다 더 나은 효과를 보임을 증명하기 위해 수행되는 통계적 검정입니다. 이 검정은 새로운 치료법이나 약물이 기존의 표준 치료법보다 효과적이라는 것을 입증하는 데 사용됩니다.

1.5 우위성 검정의 주요 특징

목적: 시험약이 대조약보다 통계적으로 유의하게 더 나은 효과를 보이는지를 확인하는 것입니다. 이는 새로운 치료가 기존 치료보다 임상적으로 의미 있는 개선을 제공하는지를 평가합니다.
설계: 일반적으로 무작위 대조시험 (Randomized Controlled Trial, RCT) 에서 수행되며, 두 그룹 간의 효과 차이를 비교합니다. 이 과정에서 통계적 유의성을 확보하기 위해 적절한 표본 크기와 설계가 필요합니다.
결과 해석: 통계적으로 유의한 결과가 도출되면, 이는 시험약이 대조약보다 우수하다는 증거로 해석됩니다. 그러나 통계적 유의성이 임상적 유의성을 항상 보장하는 것은 아니므로, 임상적 의미도 함께 고려해야 합니다.

우위성 검정은 신약 개발 및 임상시험에서 중요한 역할을 하며, 새로운 치료법의 도입을 위한 과학적 근거를 제공합니다.

1.6 동등성 검정

동등성 검정 (Equivalence Test) 은 두 치료제 사이에 임상적으로 의미 있는 차이가 없음을 증명하기 위해 수행되는 통계적 검정입니다. 이는 주로 두 치료제가 서로 동등한 효과를 가진다는 것을 입증하려는 경우에 사용됩니다.

목적: 두 치료제 간의 효과 차이가 사전에 정의된 허용 가능한 범위 내에 있음을 증명하는 것입니다. 이는 두 치료제가 임상적으로 동등한 효과를 나타낸다는 것을 보여주려는 것입니다.
설계: 동등성 검정에서는 양측 신뢰구간을 사용하여 두 치료제 간의 차이가 사전에 설정된 동등성 경계 내에 있는지를 평가합니다. 신뢰구간이 동등성 경계 내에 완전히 포함되면 두 치료제가 동등하다고 결론지을 수 있습니다.⁶
결과 해석: 동등성 검정의 결과는 두 치료제가 통계적으로 유의한 차이가 없다는 것을 의미하며, 이는 임상적으로도 의미 있는 차이가 없다는 것을 나타냅니다. 이는 새로운 치료제가 기존 치료제와 유사한 효과를 제공함을 입증하는 데 사용됩니다.

동등성 검정은 제네릭 의약품의 승인이나 기존 치료제와의 비교 연구에서 자주 사용됩니다. 이를 통해 새로운 치료제의 효과가 기존 치료제와 동등함을 입증함으로써, 임상적 유용성을 확보할 수 있습니다.

1.7 비열등성 검정

비열등성 검정 (Non-inferiority Test) 은 임상시험에서 실험적 치료가 대조약보다 열등하지 않음을 증명하기 위해 수행되는 통계적 검정입니다. 이는 특히 위약 대조가 비윤리적이거나 실용적이지 않은 경우에 사용되며, 시험약이 대조약과 비교하여 임상적으로 의미 있는 차이가 없음을 입증하려는 목적을 가집니다.

목적: 비열등성 검정은 새로운 치료제가 기존의 활성 대조약보다 열등하지 않다는 것을 입증하는 데 목적이 있습니다. 이를 통해 새로운 치료제가 기존 치료와 유사한 효과를 제공하면서도 다른 장점 (예: 부작용 감소, 비용 절감 등) 을 가질 수 있음을 보여줍니다.
설계: 비열등성 검정에서는 비열등성 마진 (non-inferiority margin) 을 사전에 정의해야 합니다. 이 마진은 두 치료제 간의 허용 가능한 최대 효과 차이를 나타내며, 신뢰구간이 이 마진 내에 있으면 비열등하다고 결론지을 수 있습니다.⁷
결과 해석: 비열등성 검정의 결과는 실험적 치료가 대조약보다 통계적으로 유의하게 열등하지 않다는 것을 의미합니다. 이를 통해, 실험적 치료가 위약보다 효과적임을 간접적으로 증명할 수 있습니다.

비열등성 검정은 특히 새로운 치료법이 기존 치료법과 유사한 효과를 가지면서도 다른 임상적 이점을 제공할 때 유용합니다. 이는 임상시험에서 중요한 설계 전략으로 활용됩니다.

1.8 임상 시험에서 심사기관의 가장 큰 관심사

약효가 없는 신약을 허가해주는 것 (False positive; 제 1 종 오류) 이 약효가 있는 신약을 허가하지 않는 것 (제 2 종 오류) 보다 큰 문제이다. 따라서 임상 시험에서 제 1 종 오류의 비율이 5% 이하로 통제되었는지를 가장 관심 있게 본다.

2 임상 시험 개요

임상시험은 의약품이나 의료기기를 인간을 대상으로 적용하여 그 효과와 안전성을 검증하는 연구 과정입니다. 이는 사람을 직접 대상으로 하거나 사람에게서 추출된 검체 또는 정보를 이용하여 이루어지며, 새로운 치료법이나 이미 알려진 치료법의 효과와 안전성을 평가하기 위해 설계됩니다.⁸

임상시험은 일반적으로 다음과 같은 단계로 구분됩니다:

비임상시험: 동물이나 세포를 대상으로 하는 초기 연구 단계로, 안전성과 기초적인 효과를 평가합니다.
1 상 임상시험: 소수의 건강한 자원자를 대상으로 안전성과 적정 용량을 평가합니다.
2 상 임상시험: 소수의 환자를 대상으로 약물의 효능과 부작용을 평가합니다.
3 상 임상시험: 대규모 환자를 대상으로 약물의 효과와 안전성을 확증하고, 기존 치료법과 비교합니다.
4 상 임상시험: 시판 후 추가적인 안전성과 장기적 효과를 평가합니다.

임상시험은 철저한 계획과 설계가 필요하며, 이는 임상시험계획서에 명시됩니다. 이 계획서는 연구의 목적, 방법, 대상자 수, 통계적 분석 방법 등을 포함하여 임상시험의 성공적인 수행을 위한 지침을 제공합니다.⁹

2.1 1 차 유효성 평가 변수 (Primary endpoint)

1 차 유효성 평가 변수 (Primary Endpoint) 는 임상시험의 성공 여부를 판단하는 데 사용되는 주요 변수입니다. 이는 임상시험의 목표를 달성했는지를 평가하는 핵심 기준으로, 임상시험계획서에 명확하게 명시되어야 하며, 선택한 이유에 대한 설명도 포함되어야 합니다. 일반적으로 하나의 1 차 유효성 평가 변수가 설정되며, 이는 표본 크기를 계산하는 데도 사용될 수 있습니다. 이러한 변수는 임상시험의 결과를 해석하고, 시험약의 효과를 평가하는 데 중요한 역할을 합니다.

목적: 임상시험의 주요 목표를 달성했는지를 평가하는 핵심 지표입니다. 이는 임상시험의 성공 여부를 판단하는 데 가장 중요한 변수로, 시험의 설계 단계에서 명확하게 정의되어야 합니다.
특징: 일반적으로 하나의 1 차 유효성 평가 변수가 설정되며, 표본 크기 계산과 통계적 검정의 주요 기준으로 사용됩니다.
예시: 암 치료제의 경우, 무진행 생존기간 (Progression-Free Survival) 이나 전체 생존기간 (Overall Survival) 이 1 차 유효성 평가 변수가 될 수 있습니다.

2.1.1 1 차 유효성 평가 변수 (Primary Endpoint) 의 예시

무진행 생존기간 (Progression-Free Survival, PFS): 이는 암 치료제 임상시험에서 자주 사용되는 1 차 유효성 평가 변수로, 환자가 질병의 진행 없이 생존한 기간을 측정합니다. PFS 는 치료의 효과를 평가하는 중요한 지표로 활용됩니다.¹⁰
최적 전체 반응 (Best Overall Response, BOR): 이 변수는 치료 후 종양의 크기 변화나 반응을 평가하는 데 사용됩니다. BOR 은 암 치료의 효과를 정량화하는 데 중요한 역할을 합니다.

2.2 2 차 유효성 평가 변수 (Secondary Endpoint)

2 차 유효성 평가 변수 (Secondary Endpoint) 는 임상시험에서 보조적으로 시험약의 효과를 측정하는 변수입니다. 이는 1 차 유효성 평가 변수 외에 추가적인 정보를 제공하며, 치료의 부가적인 효과나 안전성을 평가하는 데 사용됩니다. 2 차 유효성 평가 변수는 임상시험의 보조적인 목표를 달성했는지를 평가하며 일반적으로 2 차 유효성 평가 변수는 다음과 같은 6 가지 유형으로 나뉩니다:

증상 개선: 치료가 환자의 증상을 얼마나 개선하는지를 평가합니다.
삶의 질: 치료가 환자의 전반적인 삶의 질에 미치는 영향을 측정합니다.
부작용 발생률: 치료와 관련된 부작용의 빈도와 심각성을 평가합니다.
생체표지자 변화: 치료가 특정 생체표지자에 미치는 영향을 측정합니다.
경제적 평가: 치료의 비용 효과성을 평가합니다.
장기적 효과: 치료의 장기적인 효과와 안전성을 평가합니다.

목적: 1 차 유효성 평가 변수 외에 추가적인 정보를 제공하며, 치료의 부가적인 효과나 안전성을 평가하는 데 사용됩니다. 이는 임상시험의 보조적인 목표를 달성했는지를 평가합니다.
특징: 여러 개의 2 차 유효성 평가 변수가 설정될 수 있으며, 1 차 유효성 평가 변수에 비해 상대적으로 중요도가 낮습니다. 그러나, 2 차 유효성 평가 변수는 치료의 전체적인 효과를 이해하는 데 중요한 역할을 합니다.
예시: 위의 암 치료제 사례에서, 삶의 질 (Quality of Life) 이나 부작용 발생률 등이 2 차 유효성 평가 변수가 될 수 있습니다.

3 편향 (Bias)

편향 (Bias) 은 임상시험이나 연구에서 체계적인 오류로 인해 결과가 왜곡되는 현상을 의미합니다. 이는 랜덤 오차 (random error) 와는 다른 개념으로, 특정 방향으로 결과를 지속적으로 왜곡시킵니다. 편향을 최소화하는 것은 연구의 신뢰성과 타당성을 확보하는 데 매우 중요합니다.

3.1 주요 편향 유형

선정 편향 (Selection Bias): 연구 대상자를 선택하는 과정에서 발생하는 편향으로, 연구 결과가 모집단 전체를 대표하지 못하게 합니다. 무작위 배정 (randomization) 을 통해 최소화할 수 있습니다.
정보 편향 (Information Bias): 데이터를 수집하거나 측정하는 과정에서 발생하는 오류로, 잘못된 정보가 수집되어 결과에 영향을 미칩니다. 맹검 (blinding) 과 표준화된 측정 방법을 통해 줄일 수 있습니다.
관찰자 편향 (Observer Bias): 연구자가 결과를 해석하거나 측정할 때 주관적인 판단이 개입되는 경우 발생합니다. 이중 맹검 (double-blind) 설계를 통해 최소화할 수 있습니다.
출판 편향 (Publication Bias): 긍정적인 결과가 부정적인 결과보다 더 자주 출판되는 경향이 있어, 연구 결과의 전반적인 해석에 영향을 미칩니다.
회귀 편향 (Regression Bias): 극단적인 값이 평균으로 회귀하는 경향으로 인해 발생하는 편향입니다.

3.2 편향 최소화 전략

무작위 배정: 연구 대상자를 무작위로 배정하여 선정 편향을 줄입니다.
맹검: 연구자와 참가자가 어떤 치료를 받는지 모르게 하여 관찰자와 정보 편향을 줄입니다.
표준화된 프로토콜: 데이터 수집과 측정 방법을 표준화하여 정보 편향을 줄입니다.
완전한 데이터 보고: 긍정적, 부정적 결과 모두를 보고하여 출판 편향을 줄입니다.

3.3 편향의 발생을 막는 임상 디자인

편향을 방지하기 위한 임상시험 디자인 방법 중 하나는 맹검 (blinding) 입니다. 맹검은 연구자가 의도치 않게 결과에 영향을 미치는 것을 방지하기 위해 피험자와 연구자 모두에게 특정 정보를 숨기는 방법입니다. 맹검에는 여러 유형이 있으며, 그 중 흔히 사용되는 두 가지는 다음과 같습니다:

3.3.1 맹검

단일 맹검 (Single-Blind)

설명: 피험자만이 자신이 어떤 치료를 받고 있는지 모르는 경우입니다. 연구자나 시험자는 어떤 치료가 피험자에게 투여되는지 알고 있습니다.
목적: 피험자가 자신이 받는 치료에 대해 알지 못하게 하여, 심리적 요인이나 기대가 결과에 미치는 영향을 최소화합니다.

이중 맹검 (Double-Blind)

설명: 피험자와 연구자 모두가 어떤 치료가 투여되고 있는지 모르는 경우입니다.
목적: 피험자와 연구자 모두의 편향을 방지하여, 연구 결과의 객관성과 신뢰성을 높입니다. 이는 편향을 최소화하는 가장 강력한 방법 중 하나로 간주됩니다.¹¹

이러한 맹검 방법은 임상시험에서 편향을 줄이고, 결과의 타당성을 높이는 데 중요한 역할을 합니다.

3.3.2 무작위 배정

무작위 배정 (Randomization) 은 임상시험에서 편향을 줄이고 결과의 신뢰성을 높이기 위해 피험자를 무작위로 배정하는 방법입니다. 무작위 배정의 주요 유형과 각각의 특징은 다음과 같습니다:

단순 무작위 배정 (Simple Randomization)

설명: 난수발생기를 사용하여 피험자를 무작위로 배정하는 방법입니다.
장점: 가장 기본적이고 이해하기 쉬운 방법입니다.
단점: 불균등한 배정이 발생할 수 있는 가능성이 있어, 특히 작은 표본 크기에서 그룹 간 불균형이 생길 수 있습니다.

블록 무작위 배정 (Block Randomization)

설명: 피험자들을 몇 개의 블록으로 나누고, 각 블록 내에서 단순 무작위 배정을 수행하는 방법입니다.
장점: 각 치료군에 균등한 수의 피험자가 배정되도록 보장하여, 시간 경과에 따른 외부 요인의 영향을 최소화할 수 있습니다. 이는 특히 중간 분석이 필요한 경우에 유리합니다.

층화 무작위 배정 (Stratified Randomization)

설명: 피험자들을 특정 특성 (예: 질병의 중증도, 연령 등) 에 따라 층으로 나눈 후, 각 층 내에서 블록 무작위 배정을 수행하는 방법입니다.
장점: 중요한 인구통계학적 또는 임상적 특성에 따라 피험자를 균등하게 배정하여, 이러한 특성들이 결과에 미치는 영향을 최소화할 수 있습니다.
단점: 층의 수가 많아질수록 복잡성이 증가하며, 각 층에 충분한 수의 피험자가 필요합니다. 이는 시험 설계와 관리에 있어 추가적인 부담이 될 수 있습니다.

4 검정력과 표본의 크기

검정력 (Power) 과 표본의 크기는 임상시험 설계에서 중요한 요소로, 연구 결과의 신뢰성과 타당성을 확보하는 데 필수적입니다.

4.1 검정력 (Power)

정의: 검정력은 실제로 효과가 존재할 때, 연구가 그 효과를 발견할 수 있는 확률을 의미합니다. 이는 1 - 제 2종 오류 확률(β) 로 정의됩니다.
의미: 검정력이 높을수록 연구가 실제 효과를 발견할 가능성이 높아집니다. 일반적으로 80% 이상의 검정력이 목표로 설정됩니다.

4.2 제 1 종 오류와 제 2 종 오류

제 1 종 오류 (Type I Error, α): 실제로 효과가 없는데도 효과가 있다고 잘못 결론 내리는 오류입니다. 일반적으로 α는 5% 이하로 설정됩니다.
제 2 종 오류 (Type II Error, β): 실제로 효과가 있는데도 효과가 없다고 잘못 결론 내리는 오류입니다. β가 낮을수록 검정력이 높아집니다.

4.3 제 1 종 오류와 제 2 종 오류 간의 트레이드 오프

트레이드 오프: 표본의 크기가 동일한 경우, 제 1 종 오류 (α) 를 줄이면 제 2 종 오류 (β) 가 증가하는 경향이 있습니다. 이는 연구 설계에서 두 오류 간의 균형을 맞추는 것이 중요함을 의미합니다.
해결 방법: 이 트레이드 오프를 해결하기 위해서는 표본의 크기를 증가시키는 것이 일반적인 방법입니다. 표본 크기를 늘리면 제 2 종 오류를 줄여 검정력을 높일 수 있습니다. 다시 말해 임상 시험에서 제 1 종 오류는 5% 이하로 고정되어 있기 때문에 제 2 종 오류를 줄여서 검정력을 높이기 위해서는 표본의 크기를 늘리는 수 밖에 없다.

4.4 표본의 크기를 늘리지 않고 검정력을 높이는 방법

표본의 크기를 늘리지 않고 검정력을 높이는 방법에는 다음은 두 가지 방법이 있습니다.

환자 선정을 엄격하게 해서 동질적인 환자를 모집:
- 설명: 연구에 포함되는 환자군을 더 동질적으로 만들기 위해 엄격한 선정 기준을 적용합니다. 이는 환자 간 변동성을 줄여 결과의 변동성을 감소시킵니다.
- 장점: 동질적인 환자군을 통해 통계적 검정력이 높아질 수 있습니다.
- 단점: 환자 모집에 시간이 더 걸릴 수 있으며, 신약의 적응증이 줄어들 수 있습니다.
시험약의 약효 크기를 높임:
- 설명: 시험약의 효과 크기를 증가시키면, 통계적으로 유의한 결과를 얻을 가능성이 높아집니다.
- 장점: 더 큰 효과 크기는 검정력을 증가시킵니다.
- 단점: 임상 시험이 이미 진행 중인 경우에는 이 방법을 적용하기 어려울 수 있습니다.

4.5 허가 기관에서 권장하는 검정력

허가 기관에서 권장하는 검정력은 일반적으로 80% 에서 90% 사이입니다. ICH E9 가이드라인에 따르면 이정도 수준의 검정력은 임상시험의 의미 있는 결과를 도출하는 데 필수적입니다.¹²

4.6 표본의 크기를 결정하는 방법

표본의 크기를 결정하는 방법은 임상시험의 설계에서 중요한 요소로, 1 차 유효성 평가 변수에 의해 크게 영향을 받습니다. 특히, 통계 분석법이 two-sample t-test 인 경우, 표본 크기 결정은 다음과 같은 요소들을 고려합니다:

효과 크기 (Effect Size): 두 그룹 간의 차이를 측정하는 데 사용됩니다. 효과 크기가 클수록 필요한 표본 크기는 작아질 수 있습니다.
유의 수준 (Significance Level, α): 일반적으로 5% 로 설정되며, 이는 제 1 종 오류의 허용 확률을 의미합니다.
검정력 (Power, 1-β): 일반적으로 80% 에서 90% 로 설정되며, 이는 실제 효과가 있을 때 이를 발견할 수 있는 확률입니다.
표준 편차 (Standard Deviation): 모집단의 변동성을 나타내며, 변동성이 클수록 더 많은 표본이 필요합니다.

이러한 요소들은 표본 크기를 결정하는 데 중요한 역할을 하며, 연구의 목표와 설계에 따라 신중하게 고려되어야 합니다. 표본 크기를 적절히 설정함으로써 연구의 신뢰성과 타당성을 높일 수 있습니다.

1 차 유효성 평가 변수에 의해 결정된다. 통계 분석법이 two-sample t-test 인 경우는 다음과 같다.

\[ n = \frac{Z_{alpha/2} + Z_{beta} * 2 * \delta^2}{ (\mu_1 - \mu_2)^2}\]

4.7 표본의 크기 계산에 사용된 값의 정확도

표본의 크기를 계산할 때 사용되는 값들은 일반적으로 임상시험이 끝나야 정확히 알 수 있는 미지의 값이기 때문에, 초기에는 추정치를 사용하여 계산합니다. 이러한 추정치는 과거의 연구 데이터나 파일럿 연구의 결과를 바탕으로 추정됩니다. 이로 인해, 표본 크기 계산은 항상 어느 정도의 불확실성을 내포하고 있습니다.

4.8 그룹간 표본 크기

동일한 표본 크기: 두 그룹 간의 표본 크기를 동일하게 설정하면, 통계적 검정력이 최대화됩니다. 이는 두 그룹의 비교가 더 균형 잡히고, 결과의 해석이 용이해지기 때문입니다.
비대칭 표본 크기: 실질적인 이유 (예: 모집의 어려움, 비용 제한 등) 로 인해 두 그룹의 표본 크기가 동일하지 않을 수 있습니다. 비대칭 표본 크기는 연구의 검정력을 감소시킬 수 있으며, 이를 보완하기 위해서는 더 많은 총 표본이 필요할 수 있습니다.

결론적으로, 표본 크기를 설계할 때는 가능한 한 두 그룹의 크기를 동일하게 유지하는 것이 이상적입니다. 그러나, 연구의 실질적인 제약을 고려하여 비대칭적인 크기를 사용할 수도 있으며, 이 경우 검정력에 미치는 영향을 충분히 고려해야 합니다.

4.9 임상 시험이 실패하는 이유

임상시험이 실패하는 이유는 다양하며 다음은 임상시험 실패의 일반적인 원인들입니다:

시험약의 효과가 감소되는 편향이 발생한 경우: 연구 설계나 실행 과정에서 편향이 발생하면 시험약의 실제 효과가 왜곡되어 나타날 수 있습니다.
시험약의 용량 선정이 잘못된 경우: 적절한 용량을 선택하지 못하면, 약효가 충분히 나타나지 않거나 안전성 문제가 발생할 수 있습니다. 용량이 너무 낮으면 약효가 줄어들고, 너무 높으면 부작용이 증가할 수 있습니다.
검정력이 부족한 경우: 충분한 표본 크기를 확보하지 못하면 검정력이 부족하게 되어, 실제로 효과가 있는 경우에도 이를 발견하지 못할 수 있습니다.
환자 모집단을 잘못 선택한 경우: 시험약이 특정 환자군에서만 효과가 있을 수 있는데, 잘못된 모집단을 선택하면 약효를 제대로 평가하지 못할 수 있습니다.
1 차 유효성 평가 변수를 잘못 선택한 경우: 적절한 1 차 유효성 평가 변수를 선택하지 못하면, 시험의 주요 목표를 정확히 평가하지 못할 수 있습니다.
우연에 의해 실패한 경우: 검정력 80% 라는 의미는, 실제로 효과가 있을 때 이를 발견할 확률이 80% 라는 뜻이며, 이는 우연에 의해 실패할 확률이 20% 임을 의미합니다.
시험약의 약효가 없는 경우: 시험약 자체에 효과가 없으면 임상시험은 실패할 수밖에 없습니다. 이는 시험약의 기전이 잘못 이해되었거나, 예상과 달리 효과가 없는 경우에 해당합니다.

이러한 요인들은 임상시험 설계와 실행 단계에서 신중하게 고려되어야 하며, 각 요인을 최소화하기 위한 전략이 필요합니다. 이를 통해 임상시험의 성공 가능성을 높일 수 있습니다.

5 다기관 임상 시험

다기관 임상시험은 동일한 임상시험 계획서를 기반으로 여러 기관에서 동시에 수행되는 임상시험입니다. 이러한 시험은 다양한 인구 집단에서의 약효를 평가하고 일반화 가능성을 높이기 위해 설계됩니다.

5.1 기관별 약효의 크기

다기관 임상시험에서 약효가 존재한다고 판단되면, 각 기관별로 약효의 크기에 대한 교호작용 검정을 수행합니다. 이는 각 기관에서의 약효가 일관되게 나타나는지를 평가하는 과정입니다. 교호작용 검정은 특정 기관에서의 약효 차이가 시험의 전반적인 결과에 미치는 영향을 평가해 결과의 해석에 중요한 역할을 합니다.

5.2 교호 작용 검정

교호작용 검정은 통계학적으로 두 변수 간의 상호작용이 존재하는지를 평가하는 방법입니다. 통계학적으로 교호작용이 존재한다면, 이는 두 가지 종류로 나뉩니다:

양적인 교호작용: 두 변수 간의 상호작용이 효과의 크기에 영향을 미치지만, 효과의 방향은 동일하게 유지됩니다. 예를 들어, 약물 A 와 B 가 함께 사용될 때 효과가 더 커지지만, 두 약물이 모두 긍정적인 효과를 나타내는 경우입니다.
질적인 교호작용: 두 변수 간의 상호작용이 효과의 방향을 변화시킵니다. 예를 들어, 약물 A 가 단독으로는 긍정적인 효과를 나타내지만, 약물 B 와 함께 사용될 때는 부정적인 효과를 나타내는 경우입니다.

6 기저치 공변량 보정

기저치 공변량 보정은 임상시험 시작 전에 측정된 환자의 특성 (공변량) 을 고려하여 치료 효과를 분석하는 방법입니다.¹³ 보정의 목적은 1 차 유효성 평가변수에 미치는 영향을 조정하고 치료 효과 추정의 정확도 향상시키며 임상시험 결과의 신뢰성 제고하기 위함입니다. 기저치 공변량 보정은 임상 설계 단계와 분석 단계에서 보정을 수행할 수 있습니다.

6.1 임상 설계 단계에서 보정

층화 무작위 배정:¹⁴ - 공변량에 대해 층화하여 무작위 배정을 실시합니다. 이는 치료군과 대조군 간 공변량 분포의 불균형을 줄여 편향을 감소시키며 검정력 향상에도 기여합니다.

6.2 분석 단계에서 보정

기저치 공변량 보정을 주 분석에서 실시했는지 명확히 기술해야 합니다. 탐색적 분석의 결과는 신중하게 해석해야 하며, 이에 근거한 결론은 일반적으로 받아들여지기 어렵습니다. 1 차 유효성 평가변수의 형태에 따라 다른 통계적 방법을 사용합니다.

연속형 변수: 공분산분석 (ANCOVA) 을 사용합니다.
이진형 또는 범주형 변수: 로지스틱 회귀분석을 적용합니다.
시간형 변수 (생존시간): Cox 비례위험모형 (proportional hazard mode) 을 활용합니다.

6.3 보정할 기저치 공변량의 기준

1 차 유효성 평가변수와의 상관관계: 1 차 유효성 평가변수와 상관관계가 있는 기저치 공변량을 선택하는 것이 중요합니다.¹⁵
층화 무작위배정 변수: 층화 무작위배정에 사용된 변수는 보정 대상으로 고려해야 합니다.
무작위 배정 이전 변수: 무작위 배정 이후에 관찰되는 변수는 보정 대상에서 제외해야 합니다.
교호작용 부재: 교호작용이 존재하지 않는 변수를 선택하는 것이 바람직합니다.

6.4 무작위 배정 후 관측된 불균형 기저치 공변량 보정

원칙적으로 무작위 배정 후 관측된 불균형 기저치 공변량은 보정하지 않는 것이 바람직합니다. 이에 대한 근거는 다음과 같습니다:

편향 가능성: 사후에 관찰된 불균형을 보정하는 것은 새로운 편향을 도입할 수 있습니다.¹⁶
통계적 타당성: 원래 사전에 명시되지 않은 공변량을 무작위배정 이후에 보정하는 것은 통계적으로 부적절할 수 있습니다.
연구 계획의 중요성: 임상시험 계획서의 통계 부분에서 주 분석에 포함될 임상시험대상자 집단을 사전에 정의하는 것이 중요합니다.
객관성 유지: 무작위 배정 후 관찰된 불균형을 보정하면 연구의 객관성이 훼손될 수 있습니다.

7 ITT(Intention to treat) 와 PP(per protocol)

ITT(Intention to Treat) 와 PP(Per Protocol) 분석은 임상시험 결과를 해석하는 두 가지 주요 방법입니다.

7.1 ITT (Intention to Treat) 분석 ¹⁷

무작위 배정된 모든 참가자를 원래 배정된 그룹대로 분석에 포함시킵니다.
프로토콜 위반, 중도 탈락, 치료 비순응 등에 관계없이 모든 참가자를 포함합니다.
실제 임상 현장의 상황을 더 잘 반영하여 치료의 실제 효과를 추정할 수 있습니다.
무작위 배정의 이점을 유지하고 편향을 최소화합니다.

7.2 PP (Per Protocol) 분석 ¹⁸

PP(Per Protocol) 분석은 임상시험에서 중요한 분석 방법 중 하나입니다. PP 분석의 주요 특징은 다음과 같습니다:

PP 분석은 full analysis set(전체 분석 집합) 의 부분집합으로 임상시험계획서를 보다 잘 준수한 피험자들만을 포함하는 분석 집합입니다.
주요 프로토콜 위반, 치료 비순응, 그룹 전환, 측정 누락 등의 사유로 제외된 피험자들은 분석에서 제외됩니다 ¹⁹
이상적인 조건에서의 치료 효과를 식별하는 것이 목적이며,” 환자들이 완전히 순응할 경우 효과가 어떻게 나타나는가?” 라는 질문에 답하고자 합니다.²⁰

7.3 ITT 분석과의 차이

PP 분석은 치료를 완료하지 않은 환자들을 제외하므로 치료 차이를 더 잘 반영할 수 있습니다.
ITT 분석이 두 치료법을 비슷하게 보이게 하는 경향이 있는 반면, PP 분석은 치료 차이를 더 명확히 보여줄 수 있습니다.
ITT 는 보수적인 추정치를 제공하지만, 실제 임상 상황을 더 잘 반영합니다.
PP 는 이상적인 조건에서의 효과를 보여주지만, 선택 편향의 위험이 있습니다.
PP 분석은 임상시험 결과를 해석하는 데 중요한 역할을 하지만, 선택 편향의 위험이 있으므로 ITT 분석과 함께 고려되어야 합니다. 특히 비열등성 시험에서는 ITT 와 PP 분석 모두가 중요하며, 두 분석 결과가 유사한 결론을 도출할 때 연구 결과의 신뢰성이 높아집니다.
ITT 가 일반적으로 우선적으로 권장되는 분석 방법입니다.²¹

7.4 임상시험 자료가 불완전해지는 이유

임상시험에서 자료가 불완전해지는 이유는 다양하지만 크게 4 가지 주요 이유에 대해 자세히 살펴보겠습니다:

7.4.1 선정기준 위반

일부 피험자가 연구 시작 후 선정기준에 부합하지 않는 것으로 밝혀질 수 있습니다.
이는 초기 스크리닝 과정에서의 오류나 피험자 상태의 변화로 인해 발생할 수 있습니다.
이러한 경우, 해당 피험자의 데이터를 포함시킬지 여부에 대한 결정이 필요합니다.

7.4.2 윤리적 사유 또는 단순 실수로 인한 치료법 변경

피험자의 안전이나 윤리적 고려사항으로 인해 원래 계획된 치료법을 변경해야 할 수 있습니다.
의료진의 실수로 인해 잘못된 치료가 제공될 수도 있습니다.
이러한 변경은 데이터의 일관성을 해치고 결과 해석을 복잡하게 만들 수 있습니다.

7.4.3 임상시험계획서 위반 또는 낮은 순응도

일부 피험자가 임상시험계획서를 정확히 따르지 않거나 처방된 치료에 대한 순응도가 낮을 수 있습니다.
이는 약물 복용 누락, 방문 일정 미준수, 금지된 병용 약물 사용 등의 형태로 나타날 수 있습니다.
이러한 위반은 치료 효과의 정확한 평가를 어렵게 만듭니다.

7.4.4 1 차 유효성 평가변수의 결측치 발생

피험자가 추적 관찰에서 이탈하거나, 특정 검사를 거부하거나, 데이터 수집 과정에서 오류가 발생할 수 있습니다.
결측치는 통계 분석의 정확성과 신뢰성을 저하시킬 수 있습니다.
결측 데이터 처리 방법 (예: 다중 대체법, 마지막 관찰값 전달법 등) 의 선택이 중요해집니다.

8 다중 검정

다중 검정은 임상 연구 및 통계 분석에서 자주 발생하는 문제입니다. 다중 검정은 하나의 데이터 세트에 대해 여러 가지 통계적 가설 검정을 수행하는 것입니다. 이는 다음과 같은 상황에서 발생할 수 있습니다:

여러 결과 변수를 분석할 때
여러 하위 그룹을 비교할 때
여러 시점에서 데이터를 분석할 때
중간 분석을 수행할 때

다중 검정을 인식하고 적절히 대처하는 것은 연구 결과의 신뢰성과 임상적 의미를 보장하는 데 매우 중요합니다.

8.1 다중 검정의 문제

8.1.1 Familywise Type I 오류율 증가

개별 검정의 유의수준을 5% 로 설정하더라도, 여러 검정을 수행하면 전체적인 Type I 오류율 (familywise error rate) 이 5% 이상으로 증가합니다.
이는 실제로 효과가 없는 경우에도 우연히 유의한 결과를 얻을 확률이 높아짐을 의미합니다.

8.1.2 거짓 양성 결과 증가

검정 횟수가 증가할수록 최소한 하나의 거짓 양성 결과를 얻을 확률이 높아집니다.
예를 들어, 20 개의 독립적인 검정을 5% 유의수준에서 수행할 경우, 최소 하나의 거짓 양성 결과를 얻을 확률은 64% 에 달합니다.

8.1.3 연구 결과의 신뢰성 저하

다중 검정으로 인해 우연히 유의한 결과를 얻을 가능성이 높아지면, 연구 결과의 전반적인 신뢰성이 저하됩니다.

8.1.4 임상적 영향

약효가 없는 약물이 시판 허가를 받을 확률이 증가합니다.
이는 환자 안전과 공중 보건에 부정적인 영향을 미칠 수 있습니다.

8.2 다중 검정 문제의 해결 방법

다중 검정 문제를 해결하는 여러 방법과 그 장단점에 대해 설명하겠습니다.

8.3 Bonferroni method

장점: - 간단하고 직관적인 방법 - FWER(Family-Wise Error Rate) 을 효과적으로 통제

단점: - 매우 보수적인 방법으로, 가설의 수가 많아지면 개별 검정의 유의수준이 작아져 귀무가설을 잘 기각하지 못함 ²² - Type II 오류 (false negative) 가 증가하여 검정력이 감소함

8.4 Holm method

장점: - Bonferroni 방법보다 덜 보수적 - FWER 을 통제하면서도 더 많은 귀무가설을 기각시킬 수 있음 - Type II 오류를 줄이고 검정력을 증가시킴 ²³

단점: - Bonferroni 방법에 비해 계산이 복잡함

8.5 Hochberg method

이 방법은 Holm 방법과 유사하지만 역순으로 진행됩니다.

장점: - Holm 방법보다 더 강력한 검정력을 제공할 수 있음 - FWER 을 통제하면서도 더 많은 유의한 결과를 찾을 수 있음

단점: - 특정 조건 (검정 통계량들이 독립적이거나 양의 의존성을 가질 때) 에서만 FWER 을 정확히 통제함

8.6 Prospective alpha allocation scheme

이 방법은 사전에 각 가설에 대한 유의수준을 할당합니다.

장점: - 연구자가 각 가설의 중요도에 따라 유의수준을 조정할 수 있음 - 유연한 접근 방식 제공

단점: - 주관적인 판단이 개입될 수 있음 - 사전 계획이 필요하여 유연성이 제한될 수 있음

8.7 The fixed-sequence method

이 방법은 사전에 정해진 순서대로 가설을 검정합니다.

장점: - 중요한 가설을 우선적으로 검정할 수 있음 - FWER 을 효과적으로 통제함

단점: - 순서가 고정되어 있어 유연성이 떨어짐 - 초기 가설이 기각되지 않으면 후속 가설을 검정할 수 없음

8.8 The fallback method

이 방법은 fixed-sequence method 의 변형으로, 이전 가설이 기각되지 않아도 다음 가설을 검정할 수 있습니다.

장점: - Fixed-sequence method 보다 유연함 - 모든 가설에 대해 검정 기회를 제공함

단점: - 계산이 복잡할 수 있음 - 초기 가설의 중요성이 여전히 강조됨

8.9 Gate keeping

이 방법은 가설을 그룹으로 나누고, 특정 그룹의 가설이 기각되어야 다음 그룹의 가설을 검정할 수 있게 합니다.

장점: - 구조화된 접근 방식으로 가설의 우선순위를 반영할 수 있음 - FWER 을 효과적으로 통제함

단점: - 복잡한 구조를 설계해야 함 - 초기 그룹의 가설이 기각되지 않으면 후속 그룹의 가설을 검정할 수 없음

이러한 다양한 방법들은 각각의 장단점이 있으며, 연구 상황과 목적에 따라 적절한 방법을 선택해야 합니다.

다중 검정 문제를 해결하기 위한 여러 방법이 있습니다:

Bonferroni 교정: 유의수준을 검정 횟수로 나누어 조정합니다.
Holm-Bonferroni 방법: 단계적으로 유의수준을 조정합니다.
False Discovery Rate (FDR) 제어: 거짓 발견 비율을 제어합니다.
사전에 주요 결과 변수 지정: 분석 계획 단계에서 주요 결과 변수를 미리 지정합니다.
통합 검정 방법 사용: 여러 결과를 하나의 통계량으로 통합하여 분석합니다.

8.9.1 다중 검정 문제를 해결하는 방법과 각각의 장단점

Bonferroni method: 장단점?
Holm method: 장단점?
Hochberg method:
Prospective alpha allocation scheme
The fixed-sequence method
The fallback method
Gate keeping

9 하위군 분석

하위군 분석은 임상시험 종료 후 전체 자료를 여러 개의 하위집단으로 나누어 통계 분석을 실시하는 방법입니다. 이는 크게 두 가지 유형으로 나눌 수 있습니다:

확증적 하위군 분석
탐색적 하위군 분석

9.1 확증적 하위군 분석

확증적 하위군 분석은 매우 드문 경우에 수행되며, 다음 두 가지 조건이 임상시험 계획서에 명확히 명시되어 있어야 합니다:

분석할 하위군이 사전에 정의되어 있어야 함
다중성 문제를 해결하기 위한 통계적 방법이 명시되어 있어야 함

이러한 조건을 충족시키는 확증적 하위군 분석은 신뢰성 있는 결과를 제공할 수 있습니다.

9.2 탐색적 하위군 분석

탐색적 하위군 분석은 다음과 같은 특징을 가집니다:

시험약의 효능 존재 여부를 직접적으로 검증하지 않습니다.
주로 치료제와 공변량 사이의 교호작용 존재 여부를 판단하는 데 중점을 둡니다.
이 분석은 향후 연구를 위한 가설을 생성하거나 특정 하위군에서의 치료 효과를 탐색하는 데 유용합니다.

탐색적 하위군 분석의 결과는 주의해서 해석해야 하며, 일반적으로 확증적 증거로 간주되지 않습니다 [1].

9.3 주의사항

하위군 분석, 특히 탐색적 분석을 수행할 때는 다음 사항에 주의해야 합니다:

다중성 문제: 여러 하위군을 동시에 분석할 경우 제 1 종 오류 (false positive) 가능성이 증가합니다.
검정력 감소: 하위군으로 나누면 각 그룹의 표본 크기가 작아져 통계적 검정력이 감소할 수 있습니다.
해석의 주의: 특히 탐색적 분석 결과는 추가 연구의 필요성을 제시하는 정도로 해석해야 합니다 [1].

10 비열등성 임상시험

위약군이 없는 임상시험으로 두가지 서로 다른 목적이 있다. 1. 시험약이 대조약 보다 나쁘지 않음을 증명. 2. 시험약이 위약보다 약효가 우위함을 보여 시판허가 받기 (좀 더 중요한 것)

10.1 Assay sensitivity 의 개념

변별력있는 시험. 과거 임상 결과의 재현성에 대한 문제를 피하기 위한 선행요건. 3 가지 간접적인 방법이 있다.

HESDE
현재 비열등성 임상과 과거 임상의 유효성 입증
현재 비열등성 임상을 높은 수준으로 관리

과거 임상시험의 결과가 재현되지 않을 수도 있는가? 그렇다.

10.2 비열등성 마진을 결정하는 방법

FDA 권고에 따르면 통계적 마진과 임상적 마진이 있다. 1. 통계적 마진 2. 임상적 마진: 통계적 마진보다 작아야 한다.

10.3 비열등성 시험은 보통 2 개의 그룹이지만 위약을 쓸 수 있다면 3 개의 그룹으로도 진행할 수 있다

비열등성 임상시험은 위약군 없이 진행되며, 두 가지 주요 목적이 있습니다:

시험약이 대조약보다 나쁘지 않음을 증명
시험약이 위약보다 약효가 우위에 있음을 보여 시판허가를 받는 것 (더 중요한 목적)

10.4 Assay sensitivity 의 개념

Assay sensitivity 는 변별력 있는 시험을 의미하며, 과거 임상 결과의 재현성 문제를 피하기 위한 선행요건입니다. 이를 확보하기 위한 3 가지 간접적인 방법이 있습니다:

HESDE (Historical Evidence of Sensitivity to Drug Effects): 과거의 임상시험 데이터를 활용하여 약물 효과에 대한 민감도를 평가하는 방법.
현재 비열등성 임상과 과거 임상의 유효성 입증: 현재 진행 중인 비열등성 임상시험과 과거 임상시험 결과를 비교하는 접근법.
현재 비열등성 임상을 높은 수준으로 관리: 현재 진행 중인 비열등성 임상시험의 품질을 높이는 데 중점

가장 주의할 점은 과거 임상시험의 결과가 다시 재현되지 않을 수도 있다는 것입니다.

10.5 비열등성 마진 결정 방법

FDA 권고에 따르면 비열등성 마진을 결정하는 데 두 가지 접근 방식이 있습니다:

통계적 마진: 과거 임상시험 데이터를 기반으로 통계적 분석을 통해 결정.
임상적 마진: 마진은 임상적 중요성과 실용성을 고려하여 결정되며, 통계적 마진보다 작아야 합니다.

10.6 비열등성 시험에서 주의할 점

비열등성 시험에서는 눈가림 (blinding) 이 우월성 시험만큼 편향을 방지하지 못할 수 있습니다.
비열등성 마진을 명시하는 것은 매우 중요하며, 임상시험 계획서에 명확히 정의되어야 합니다.
통계적 처벌 없이 동일한 임상시험에서 비열등성과 우월성을 모두 평가할 수 있습니다. 따라서 가능하다면 임상시험 계획서에 두 가지 가설을 모두 포함하는 것이 좋습니다.²⁴
비열등성 시험은 일반적으로 2 개의 그룹 (시험약과 대조약) 으로 진행됩니다. 그러나 윤리적으로 허용되고 과학적으로 필요한 경우, 위약을 포함한 3 개의 그룹으로도 진행할 수 있습니다.

11 결측치 처리

결측치는 모든 임상시험에서 불가피하게 발생합니다. 주요 원인으로는 환자의 중도 탈락, 추적 관찰 실패, 데이터 수집 오류, 환자의 비협조 등이 있습니다. 결측치는 단순히 제거하는 대신, 적절한 통계적 방법을 사용하여 처리해야 합니다. 결측치 처리 방법 선택 시 결측 메커니즘, 연구 설계, 규제 요구사항 등을 종합적으로 고려해야 합니다. 이는 임상시험의 타당성을 유지하고, 결과의 신뢰성을 확보하는 데 중요합니다.

11.1 결측치 제거의 문제점

단순히 결측치를 제거하는 것은 다음과 같은 심각한 문제를 야기할 수 있습니다:

ITT(Intent-to-Treat) 원칙 위배: 모든 무작위 배정된 대상자를 분석에 포함해야 함, 결측치 제거는 이 원칙을 위배하여 임상시험의 무작위화 이점을 손상시킴
검정력 감소: 표본 크기 감소로 인한 통계적 검정력 저하, 따라서 중요한 치료 효과를 발견하지 못할 위험 증가.
편향 발생: 결측 데이터가 무작위가 아닌 경우, 남은 데이터가 전체 모집단을 대표하지 못할 수 있으며 따라서 치료 효과 추정치의 왜곡 가능성이 증가.

Note

Complete Case Analysis(완전 사례 분석) 는 SAS 에서 가장 간단하게 사용할 수 있는 결측치 처리 방법입니다. FDA 에서 요구하는 기본적인 분석 방법으로 PROC 문에서 NOMISS 옵션을 사용해 사용 가능합니다. 결측치가 있는 관측치를 모두 제외하고 분석하는 것이며 단점으로는 데이터 손실로 인한 검정력 감소와 편향 가능성이 증가합니다.

11.2 결측치의 분류

결측치의 유형을 정확히 파악하는 것은 어렵지만, 적절한 처리 방법을 선택하는 데 중요합니다. 결측치는 발생 메커니즘에 따라 3 가지로 분류됩니다:

MCAR (Missing Completely At Random): 결측 발생이 완전히 무작위적이며 구별하기 쉽지만 실제 발생 비율은 매우 낮음. 예: 실험실 샘플의 우발적인 파손
MAR (Missing At Random): 결측 발생이 관찰된 다른 변수와 관련되어 있지만, 결측된 변수 자체의 값과는 무관. 예: 특정 연령대에서 설문 응답률이 낮은 경우
MNAR (Missing Not At Random): 결측 발생이 결측된 변수의 값 자체와 관련, 대부분의 임상시험 결측치가 이 범주에 해당. 예: 부작용으로 인한 중도 탈락

MCAR 의 경우 완전 사례 분석을 통해 결측치를 제외하여도 편향되지 않을 수 있지만, MAR 과 MNAR 의 경우 더 복잡한 방법 (예: 다중대체법, 혼합모형 등) 이 필요할 수 있습니다.

11.3 결측치 처리방법

LOCF (Last Observation Carried Forward): 마지막 관찰값을 이후 결측치에 대입
BOCF (Baseline Observation Carried Forward): 기준선 관찰값을 결측치에 대입
Unconditional and Conditional Mean Imputation:
- Unconditional: 전체 평균으로 대체
- Conditional: 특정 조건 하의 평균으로 대체
Best or Worst Case Imputation: 최선 또는 최악의 시나리오 값으로 대체
Regression Method: 회귀 모델을 사용하여 결측치 예측
Hot-deck Imputation: 유사한 특성을 가진 다른 관측치의 값으로 대체
Single Imputation: 단일 값으로 모든 결측치 대체

11.4 MAR(Missing At Random) 의 결측치 처리

Multiple Imputation: 여러 번의 대체를 통해 불확실성 반영
Imputation 하지 않는 방법: 혼합 모형 또는 가중 GEE 등 사용

MAR 은 결측치가 무작위로 발생하지만, 결측 여부가 다른 관측된 변수와 관련이 있는 경우를 말합니다. MAR 상황에서는 다음과 같은 결측치 처리 방법을 고려할 수 있습니다:

다중 대체법 (Multiple Imputation)
- MAR 가정 하에서 가장 널리 사용되는 방법입니다.
- 결측치의 불확실성을 고려하여 여러 번 대체를 수행합니다.
- 3 단계로 진행됩니다:
  1. Imputation step: 자료의 분포를 토대로 결측치를 대체
  2. Analysis step: 대체된 데이터셋을 분석
  3. Pooling step: 여러 분석 결과를 종합
최대 우도법 (Maximum Likelihood Estimation)
- 관측된 데이터를 기반으로 결측 데이터의 분포를 추정합니다.
- EM 알고리즘 등을 사용하여 모수를 추정할 수 있습니다.
가중치 기반 방법 (Weighted Estimation)
- 결측 확률의 역수를 가중치로 사용하여 편향을 보정합니다.
핫덱 대체법 (Hot-deck Imputation)
- 유사한 특성을 가진 다른 관측치의 값으로 결측치를 대체합니다.
회귀 대체법 (Regression Imputation)
- 다른 변수들을 사용하여 결측값을 예측하는 회귀 모델을 구축합니다.
K-NN 알고리즘
- 가장 유사한 특성을 가진 k 개의 이웃 데이터를 기반으로 결측치를 추정합니다.

MAR 상황에서는 단순한 삭제나 평균 대체 등의 방법보다 위의 방법들이 더 적절할 수 있습니다. 특히 다중 대체법은 MAR 가정 하에서 편향을 줄이고 불확실성을 고려할 수 있어 널리 사용됩니다. 결측치 처리 방법 선택 시에는 데이터의 특성, 결측 메커니즘, 분석 목적 등을 종합적으로 고려해야 합니다.

11.5 MNAR (Missing Not At Random) 의 결측치 처리

MNAR(Missing Not At Random) 상황에서의 결측치 처리는 매우 복잡하고 어려운 문제입니다. MNAR 의 경우 결측 메커니즘이 관찰되지 않은 데이터와 관련이 있어, 단순한 대체 방법으로는 편향된 결과를 초래할 수 있습니다. MNAR 상황에서 고려할 수 있는 결측치 처리 방법은 다음과 같습니다:

패턴 혼합 모델 (Pattern Mixture Models)
- 결측 패턴에 따라 데이터를 그룹화하고, 각 그룹에 대해 별도의 모델을 적용합니다.
- 결측 메커니즘을 명시적으로 모델링할 수 있습니다.
선택 모델 (Selection Models)
- 결측 확률과 관심 변수 간의 관계를 모델링합니다.
- 결측 메커니즘에 대한 가정을 명시적으로 포함합니다.
공유 파라미터 모델 (Shared Parameter Models)
- 결측 과정과 관심 변수를 동시에 모델링합니다.
- 두 과정 사이의 의존성을 포착할 수 있습니다.
민감도 분석 (Sensitivity Analysis)
- 다양한 가정 하에서 여러 분석을 수행하여 결과의 안정성을 평가합니다.
- MNAR 상황에서 특히 중요한 접근 방법입니다.
다중 대체법의 변형 (Modified Multiple Imputation)
- 표준 다중 대체법을 수정하여 MNAR 메커니즘을 고려합니다.
- 대체 모델에 추가적인 파라미터를 포함시킬 수 있습니다.
보조 변수 활용 (Auxiliary Variables)
- 결측 메커니즘과 관련된 추가 변수를 모델에 포함시켜 MAR 가정에 더 가깝게 만듭니다.

MNAR 상황에서는 단일 방법으로 완벽한 해결책을 제공하기 어렵습니다. 따라서 여러 방법을 조합하고, 결과의 안정성을 평가하는 것이 중요합니다. 또한, 도메인 전문가와의 협력을 통해 결측 메커니즘에 대한 이해를 깊이 있게 하는 것이 필수적입니다.

11.6 결측치 처리의 최선책

결측치 발생 최소화: 연구 설계 및 수행 단계에서 예방
결측치 처리 방법을 계획서에 명기: 사전에 방법 결정 및 문서화
민감도 분석 수행: 여러 방법으로 분석하여 결과의 견고성 확인
결측치 발생 이유 보고: 결측 패턴 및 원인에 대한 상세한 보고

12 생물학적 동등성 시험

생물학적 동등성 시험은 복제약 (제네릭 의약품) 의 시판 허가를 위해 수행하는 시험입니다. 이 시험의 목적은 두 제제 (대조약과 시험약) 의 생체이용률이 통계적으로 동등함을 입증하는 것입니다.²⁵

주요 특징: - 기존 시판 약물 (대조약) 과 새로운 복제약 (시험약) 의 체내 약물농도와 약효를 비교합니다. - 일반적으로 건강한 성인 지원자를 대상으로 실시합니다. - 신약 개발을 위한 임상시험과는 진행 과정에 차이가 있습니다.

12.1 신뢰구간을 사용해 생동성 입증

생물학적 동등성을 입증하기 위해 주로 TOST(Two One-Sided Test procedure) 를 사용합니다. TOST 는 두 제제의 생체이용률이 통계적으로 동등함을 입증하는 데 특화된 방법으로 명확한 기준 제시합니다 (일반적으로 80-125% 범위의 신뢰구간을 사용하여 동등성 여부를 판단할 수 있어, 결과 해석이 명확). TOST 방법에 대해서 간략히 설명하면 아래와 같습니다.

두 제제의 약동학적 파라미터 (예: AUC, Cmax) 의 비율에 대한 90% 신뢰구간을 계산합니다.
일반적으로 이 신뢰구간이 80-125% 범위 내에 들어가면 생물학적 동등성이 입증된 것으로 간주합니다.

12.2 생동성시험에서 이상 발생 사유

생산과정의 문제
- 제조 공정의 차이
- 원료 약물의 품질 차이
- 제형 설계의 문제
환자 집단에 대한 세부적인 교호작용 존재
- 특정 환자 그룹에서 약물 흡수나 대사의 차이
- 유전적 다형성에 의한 약물 반응의 차이
- 식이나 다른 약물과의 상호작용

13 바이오시밀러와 동등성 검정

바이오시밀러는 이미 허가된 바이오의약품 (오리지널 의약품) 과 품질, 안전성, 유효성이 동등함을 입증한 생물의약품입니다.

13.1 동등성 시험이란?

동등성 시험은 바이오시밀러가 오리지널 의약품과 임상적으로 의미 있는 차이가 없음을 증명하는 과정입니다.

13.2 동등성 마진의 결정

동등성 마진은 1 차 유효성 평가변수에서 바이오시밀러와 오리지널 의약품 간 허용 가능한 차이의 범위를 나타냅니다. 이 마진 내의 차이는 임상적으로 의미 있지 않다고 간주됩니다. 동등성 마진 결정에 대한 구체적인 기준은 약전에 명확하게 명시되어 있지 않습니다. 그러나:

FDA 는 과거 임상 결과를 바탕으로 일반적으로 12% 의 마진을 요구합니다.
마진 설정은 해당 약물의 특성, 적응증, 과거 임상 데이터 등을 종합적으로 고려하여 결정됩니다.

14 임상시험계획서 변경

적응형 디자인 (Adaptive design) 은 임상시험 진행 중 얻은 데이터를 바탕으로 시험 설계를 유연하게 조정할 수 있는 방법입니다. 임상시험계획서 변경시에는 맹검을 해제해 얻은 중간 결과를 누가 보았는지가 핵심입니다. 임상연구자 및 관련자가 이 정보를 알게 되면 데이터에 편향이 발생할 수 있기 때문에, 제 3 자 독립적 자료 모니터링 위원회에서 중간결과를 확인해야 합니다.

14.1 Adaptive design 의 문제점

편향발생: 중간 결과에 따른 설계 변경이 연구 결과에 영향을 미칠 수 있습니다.
다중검정: 반복적인 분석으로 인해 제 1 종 오류가 증가할 수 있습니다.

14.2 Adaptive design 의 성공조건

무작위배정 코드를 엄격하게 관리: 배정 정보의 기밀성을 유지합니다.
자료관리 수준을 높인다: 데이터의 품질과 신뢰성을 확보합니다.
독립적 자료모니터 위원회를 통해 운영한다: 객관성과 투명성을 보장합니다.

15 임상 시험을 감시하는 집단

임상 시험의 안전성, 윤리성, 과학적 타당성을 보장하기 위해 여러 집단이 감시 역할을 수행합니다. 스폰서 (주로 제약회사) 가 신약 개발을 위해 임상시험을 주도하는 가운데, 다음과 같은 집단들이 감시 기능을 담당합니다:

독립적 자료모니터 위원회: 임상시험 중간 결과를 검토하고 시험 지속 여부를 결정합니다.
임상시험심사위원회 (IRB): 연구 계획의 윤리성과 과학적 타당성을 심사하고 승인합니다.
임상시험운영위원회: 전반적인 임상시험 운영을 관리하고 감독합니다.
평가변수 평가위원회: 주요 평가변수의 객관성을 확보하기 위해 독립적으로 평가합니다.
임상모니터링팀: 현장에서 임상시험 진행 상황을 모니터링하고 보고합니다.
시험자: 실제 임상시험을 수행하면서 참여자의 안전을 직접적으로 관리합니다.

이러한 다양한 집단의 감시 활동을 통해 임상시험의 신뢰성과 안전성을 확보하고, 참여자의 권리와 복지를 보호합니다.

15.1 독립적 자료 모니터링 위원회

독립적 자료 모니터링 위원회 (Independent Data Monitoring Committee, IDMC) 설립을 통해 임상시험의 객관성과 안전성을 높일 수 있으며, 이는 임상시험 결과의 신뢰도 향상에 기여합니다. 설립 절차는 아래와 같습니다.

헌장 작성:
- IDMC 의 설립 목적, 역할, 책임을 명확히 정의한 헌장을 작성합니다.
- 대상 임상시험을 구체적으로 명시합니다.
- 위원회의 구성, 운영 방식, 의사결정 과정 등을 상세히 기술합니다.
위원 선정:
- 임상시험과 이해관계가 없는 독립적인 전문가들로 구성합니다.
- 통계학자, 임상의, 윤리 전문가 등 다양한 분야의 전문가를 포함시킵니다.
운영 절차 수립:
- 회의 주기, 데이터 검토 방법, 보고 체계 등을 명확히 정립합니다.
- 비밀 유지 및 이해상충 관리 방안을 마련합니다.
스폰서와의 관계 정립:
- IDMC 의 독립성을 보장하기 위한 스폰서와의 관계를 명확히 합니다.
- 데이터 접근 권한, 의사결정의 자율성 등을 보장받습니다.
규제 기관 승인:
- 필요한 경우, 규제 기관의 승인을 받습니다.

16 임상에서 대조군 선택의 중요성

대조군 선택은 임상시험 설계에서 매우 중요한 요소입니다:

치료 효과 평가: 대조군은 시험약의 효과를 객관적으로 평가할 수 있는 기준을 제공합니다.
편향 감소: 적절한 대조군 설정은 다양한 편향을 줄이는 데 도움이 됩니다.
윤리적 고려: 대조군 선택은 임상시험의 윤리성과 밀접한 관련이 있습니다.
규제 요구사항 충족: 많은 규제 기관에서 특정 유형의 대조군을 요구합니다.
결과 해석: 대조군의 특성에 따라 임상시험 결과의 해석이 달라질 수 있습니다.

16.1 동시 대조군이란?

동시 대조군은 같은 임상시험 내에서 시험약과 대조약을 각각 다른 그룹에 동시에 투여하는 방식을 말합니다.동시 대조군은 임상시험의 신뢰성과 타당성을 높이는 데 중요한 역할을 합니다.

주요 특징: - 시간적 일치: 시험약 그룹과 대조군 그룹이 동일한 시간대에 임상시험에 참여합니다. - 환경적 동질성: 두 그룹이 동일한 임상 환경에서 시험을 받습니다. - 무작위 배정: 참가자들을 무작위로 시험약 그룹과 대조군 그룹에 배정합니다.

장점: - 시간에 따른 변화 요인을 통제할 수 있습니다. - 두 그룹 간의 직접적인 비교가 가능합니다. - 편향을 최소화할 수 있습니다.

16.2 대조군의 목적과 필요성

대조군은 시험약에 의해 피험자에게 생긴 결과와 다른 요소에 의한 결과를 구별하기 위해 필요합니다. 주요 목적은 다음과 같습니다:

시험약의 실제 효과 평가: 대조군을 통해 시험약의 순수한 효과를 분리하여 평가할 수 있습니다.
편향 감소: 대조군 설정은 다양한 편향을 줄이는 데 도움이 됩니다.
자연치유 효과 구분: 일부 질병은 시간이 지나면 자연적으로 호전될 수 있습니다. 대조군을 통해 이러한 자연치유 효과와 시험약의 효과를 구분할 수 있습니다.
위약효과 고려: 위약효과 (placebo effect) 는 실제 약물 효과가 아닌 심리적 요인에 의한 증상 개선을 말합니다. 대조군을 사용함으로써 이러한 위약효과와 실제 약물 효과를 구분할 수 있습니다.
외부 요인의 영향 평가: 임상시험 기간 동안 발생할 수 있는 환경적 변화나 기타 외부 요인의 영향을 평가할 수 있습니다.
통계적 비교 가능: 대조군은 시험약 그룹과의 통계적 비교를 가능하게 하여, 결과의 유의성을 평가할 수 있게 합니다.

16.3 대조군 선택의 고려사항

임상시험에서 대조군을 선택할 때는 다음 세 가지 주요 사항을 고려해야 합니다:

현재 표준치료법이 있는지 여부:
- 표준치료법이 있는 경우: 일반적으로 이를 대조군으로 사용합니다.
- 표준치료법이 없는 경우: 위약 대조군이나 무처치 대조군을 고려할 수 있습니다.
- 중요성: 현재의 의료 표준을 반영하여 새로운 치료법의 상대적 효과를 평가할 수 있습니다.
특정 대조군 선택에 대한 적절성:
- 연구 목적과의 부합성: 선택된 대조군이 연구 질문에 적절히 답할 수 있어야 합니다.
- 통계적 고려: 대조군은 시험약과의 유의미한 비교를 가능하게 해야 합니다.
- 실행 가능성: 선택된 대조군이 실제 임상 환경에서 구현 가능해야 합니다.
- 중요성: 적절한 대조군 선택은 연구 결과의 신뢰성과 해석 가능성을 높입니다.
윤리적 적절성:
- 위약 사용의 윤리성: 심각한 질병에서 위약 사용이 윤리적으로 적절한지 검토해야 합니다.
- 최선의 이용 가능한 치료: 대조군 참가자들에게도 최선의 치료가 제공되어야 합니다.
- 위험 - 이익 균형: 대조군 참가자들에게 과도한 위험이 가해지지 않아야 합니다.
- 중요성: 윤리적 고려는 참가자의 안전과 권리를 보호하고, 연구의 사회적 수용성을 확보합니다.

16.4 대조군선택이 영향을 주는 8 가지

임상결과 해석: 대조군의 특성에 따라 시험약의 효과를 해석하는 방식이 달라집니다. 예를 들어, 위약 대조군과 비교하면 절대적 효과를, 활성 대조군과 비교하면 상대적 효과를 평가할 수 있습니다.
임상의 윤리성: 특히 중증 질환에서 표준치료가 있는 경우, 위약 대조군 사용은 윤리적 문제를 야기할 수 있습니다. 환자의 안전과 복지를 고려한 대조군 선택이 필요합니다.
분석의 편향 여부: 적절한 대조군 선택은 연구 결과의 편향을 최소화하는 데 중요합니다. 예를 들어, 역사적 대조군 사용은 시간에 따른 변화로 인한 편향을 초래할 수 있습니다.
환자 종류와 모집의 속도: 대조군의 유형에 따라 참여 가능한 환자군이 달라지며, 이는 환자 모집 속도에 영향을 줍니다. 예를 들어, 위약 대조군 사용은 일부 환자의 참여를 제한할 수 있습니다.
연구할 평가 변수의 종류: 대조군 선택은 평가할 수 있는 변수의 범위에 영향을 줍니다. 활성 대조군을 사용하면 안전성 프로필 비교가 가능하지만, 위약 대조군에서는 이러한 비교가 제한적일 수 있습니다.
임상 결과의 신뢰성: 적절한 대조군 선택은 연구 결과의 신뢰성을 높입니다. 예를 들어, 무작위 배정된 동시 대조군은 역사적 대조군보다 더 신뢰할 수 있는 결과를 제공합니다.
시판허가의 여부: 규제 기관의 요구사항에 부합하는 대조군 선택은 시판 허가 획득에 중요합니다. 일부 상황에서는 특정 유형의 대조군 사용이 필수적일 수 있습니다.
잘못된 결론: 부적절한 대조군 선택은 잘못된 결론으로 이어질 수 있습니다. 예를 들어, 활성 대조군의 효과가 일관되지 않은 경우, 비열등성 시험 결과의 해석이 어려워질 수 있습니다.

17 대조군의 종류

대조군은 임상시험에서 시험약의 효과를 비교하기 위한 환자군입니다.

17.0.1 치료제에 따른 대조군

위약 (Placebo): 약리학적 효과가 없는 물질, 시험약의 실제 효과를 평가하는 데 유용
무처치 (No treatments): 어떤 치료도 제공하지 않음, 자연적인 시간의 경과를 관찰하는 데 사용
시험약의 용량 혹은 용법: 동일 약물의 다른 용량이나 투여 방법, 용량에 대한 반응 관계 평가에 유용
시험약 이외의 다른 활성 치료제: 기존에 효과가 입증된 약물, 새로운 치료법의 상대적 효과를 평가

17.0.2 피험자를 대조군에 배정하는 방법

무작위 배정: 편향을 최소화하고 통계적 신뢰성을 높임, 현재 가장 선호되는 방법
외부 대조군 또는 과거 대조군: 별도의 집단이나 과거 데이터를 대조군으로 사용하는 방법, 윤리적 문제나 실행 가능성 때문에 사용될 수 있음

17.1 위약 동시 대조군

위약 동시 대조군은 임상시험에서 시험약의 효과를 객관적으로 평가하기 위해 사용되는 중요한 대조군으로 치료 효과가 없는 위약 (시험약과 물리적으로 동일하지만 유효성분이 없는 약물) 을 투여하는 환자군입니다. 시험약 그룹과 위약 그룹이 같은 임상시험 기간 동안 동시에 평가되며 참가자들은 무작위로 시험약 그룹 또는 위약 그룹에 배정됩니다. 또한 이중맹검 (참가자와 연구자 모두 누가 위약을 받는지 모르는 상태) 으로 진행됩니다.

17.2 무처치 (no-treatment) 동시 대조군

어떠한 치료도 받지 않는 대조군으로 자연 경과를 관찰하는 데 유용합니다. 다만 윤리적 문제로 사용이 제한될 수 있습니다.

17.3 용량반응 동시대조군

피험자들이 다양한 용량에 무작위 배정됨
약물의 최적 용량을 찾는 데 도움
용량 - 반응 관계를 평가할 수 있음

17.4 활성동시대조군

이미 효과가 입증된 표준 치료를 받는 대조군
새로운 치료법의 상대적 효과를 평가
윤리적 문제를 최소화할 수 있음

17.5 외부 대조군

현재 진행 중인 임상시험 외부의 대조군
과거 데이터나 다른 연구의 대조군 사용
비용 효율적이지만 편향 위험이 높음

17.6 다중 대조군

여러 유형의 대조군을 동시에 사용
다양한 관점에서 치료 효과를 평가
복잡하지만 포괄적인 결과를 얻을 수 있음

18 단일군 전후 비교

단일군 전후 비교는 하나의 그룹에 대해 중재 전후의 결과를 비교하는 연구 설계입니다. 그러나 이 방법은 여러 편향이 발생할 수 있어 적절한 디자인은 아닙니다.

18.1 시간의 경과에 따른 질병의 변화

발생할 수 있는 편향: 시간이 지남에 따라 자연적으로 발생하는 질병의 변화가 중재 효과로 오인될 수 있습니다.

18.2 평균으로의 회귀

발생할 수 있는 편향: 극단적인 측정값이 후속 측정에서 평균으로 회귀하는 현상으로, 이를 중재 효과로 잘못 해석할 수 있습니다.

여러 편향이 시험군과 위약군에 모두 같은 양으로 발생 –> 군간 비교만 편향을 제외한 효과를 추정할 수 있는 방법

이는 대조군을 포함한 연구 설계의 중요성을 강조합니다. 대조군이 있으면 이러한 편향들이 양 군에 동일하게 작용하므로, 군간 비교를 통해 실제 중재 효과를 더 정확히 추정할 수 있습니다.

18.3 항암제 임상 시험에서 단일군 전후 비교 디자인

항암제 개발의 초기 단계에서는 윤리적 문제나 실행 가능성 때문에 단일군 전후 비교가 사용될 수 있습니다. 그러나 이는 예비적인 결과로 간주되며, 후속 연구에서는 보다 엄격한 연구 설계가 필요합니다.

19 다지역임상시험

다지역임상시험은 하나의 국가이거나 여러 국가들의 집합에서 동시에 진행되는 임상시험을 의미합니다. 이는 글로벌 시장을 목표로 하는 신약 개발에서 중요한 전략입니다.

19.1 가교시험

가교시험은 다른 지역에서 이미 시판허가를 받은 신약을 새로운 지역에 도입할 때 수행하는 소규모 임상시험입니다. 주요 목적은 다음과 같습니다:

새로운 지역의 인구집단에 대한 약물의 안전성과 유효성 확인
기존 임상 데이터의 외삽 가능성 평가
지역 특이적 요인 (유전적, 환경적, 문화적 차이 등) 의 영향 평가

19.2 다지역 임상시험의 장점과 단점

장점: 1. 시간 단축: 여러 지역에서 동시에 진행되어 전체 개발 기간 단축 2. 비용 효율성: 한 번의 대규모 시험으로 여러 지역의 승인 가능 3. 다양한 인구집단 포함: 결과의 일반화 가능성 증가

단점: 1. 복잡한 관리: 여러 국가의 규제 요구사항 충족 필요 2. 지역 간 차이로 인한 해석의 어려움 3. 높은 초기 비용

19.3 다지역 임상시험에서 발생하는 통계적 이슈

지역 간 이질성: 치료 효과의 일관성 평가 필요
표본 크기 산정: 전체 및 지역별 적절한 표본 크기 결정
하위그룹 분석: 지역별 효과 차이 분석
통계적 방법론 선택: 지역 간 차이를 고려한 적절한 분석 방법 선택

19.4 효과가 각 지역에서 일정한지 확인하는 통계

기술통계: 각 지역별 효과 크기, 표준편차 등 기본적인 통계량을 제공합니다.
Forest plot: 각 지역의 효과 크기와 신뢰구간을 시각적으로 표현하여 지역 간 차이를 쉽게 파악할 수 있게 합니다.
공변량 보정을 포함하는 모형에 기반한 추정: 지역 외 다른 요인들의 영향을 고려하여 더 정확한 지역별 효과를 추정합니다.
치료제와 지역간의 교호작용 검정: 치료 효과가 지역에 따라 유의미하게 다른지 통계적으로 검증합니다.

19.5 각 지역에 피험자 할당 방법

비례할당: 각 지역의 인구 비율에 따라 피험자를 할당합니다. 대표성을 확보할 수 있습니다.
균등할당: 모든 지역에 동일한 수의 피험자를 할당합니다. 지역 간 비교가 용이합니다.
시험약 효과의 일부 보존: 전체 효과의 일정 비율을 각 지역에서 입증할 수 있도록 할당합니다.
지역유의성: 각 지역에서 독립적으로 통계적 유의성을 확보할 수 있도록 할당합니다.

20 희귀의약품

약 7000 가지의 희귀질환중에 약 5% 의 치료제만 존재한다. 환자수 모집이 어렵다. 1. 임상 디자인또는 통계분석의 효율을 증가 시킬수 있는 방법 - 적응적 임상시험 설계 : FDA 에서 권장하는 유연성 있는 디자인 임상시험 (Adaptive Design Clinical Trials) 을 활용하여 초기 임상에서부터 실용적이고 효율적인 시험을 진행할 수 있습니다. - 다군 시험 (Multi-cohort Trials) : 하나의 임상시험 프로토콜로 여러 결과를 얻을 수 있는 다군 시험을 실시하여 신약에 대한 정보를 더 빠르고 많이 얻을 수 있습니다. - 베이지안 방법론 : 특히 항암제 개발에서 베이지안 방법 (Bayesian Methodology) 을 도입하여 효율성을 높일 수 있습니다. 2. 위의 방법을 사용할 수 없는 경우 - 강화전략 (Enrichment strategy) : FDA 에서 발간한 강화전략 프로그램을 활용하여 약의 효능 확인이 용이한 환자군을 선별함으로써 성공률을 높일 수 있습니다 - 단일군 시험 : 대조군 설정이 어려운 경우, 단일군 시험을 통해 치료 전후를 비교할 수 있습니다. - 실제 임상 데이터 활용 : 실제 임상 데이터 (Real-World Data) 를 보조적 증거로 활용하여 임상시험 결과를 보완할 수 있습니다

20.1 증거의 수준

시험약 효과에 대한 신뢰구간은 치료 효과의 불확실성을 나타내는 중요한 지표입니다. 희귀질환의 경우, 환자 수가 적어 넓은 신뢰구간이 허용될 수 있으나, 임상적 의미를 신중히 해석해야 합니다.

희귀질환 임상시험에서의 주요 고려사항에 대해 설명하겠습니다.

20.2 약리적 고려

희귀질환 치료제 개발에서는 질병의 특성과 약물의 작용 기전을 세밀히 고려해야 합니다. 희귀질환의 병태생리학적 특성을 반영한 맞춤형 약리 연구가 필요하며, 약물 상호작용과 부작용에 대한 면밀한 관찰이 중요합니다.

20.3 평가변수의 선택

희귀질환의 특성을 반영하는 적절한 평가변수 선택이 중요합니다. 질병 특이적 바이오마커나 환자 보고 결과 (PRO) 를 활용할 수 있습니다. 또한, 대리 평가변수 (surrogate endpoint) 를 사용하여 시험 기간을 단축하고 효율성을 높일 수 있습니다.

20.4 대조군의 선택

희귀질환의 특성상 위약 대조군 설정이 윤리적 문제를 야기할 수 있습니다. 따라서 표준 치료군이나 역사적 대조군 사용을 고려할 수 있습니다. 경우에 따라 환자 자신을 대조군으로 사용하는 N-of-1 시험 설계도 가능합니다.

20.5 방법론 및 통계학적 고려사항

유연한 유의수준 적용: 전통적인 0.05 유의수준 대신 더 유연한 기준을 적용할 수 있습니다. FDA 에서는 희귀질환 임상시험에서 p-value 0.05 이상도 고려할 수 있다고 언급하고 있습니다.
적응적 임상시험 설계: 중간 분석 결과에 따라 시험 설계를 조정하는 적응적 설계를 통해 효율성을 높일 수 있습니다. 이는 FDA 에서도 권장하는 방법입니다.
베이지안 접근법: 사전 정보를 활용하여 적은 표본으로도 의미 있는 결론을 도출할 수 있는 베이지안 통계 방법을 고려할 수 있습니다. 특히 항암제 개발에서 이 방법론의 도입이 증가하고 있습니다.
다중 평가변수 분석: 여러 평가변수를 종합적으로 분석하여 치료 효과를 평가하는 방법을 고려할 수 있습니다. 이는 희귀질환의 복잡한 특성을 반영하는 데 도움이 될 수 있습니다.

21 안전성 자료분석

안전성 자료분석은 임상시험 중 발생한 이상반응과 약물 이상반응을 체계적으로 평가하고 분석하는 과정입니다. 이는 의약품의 안전성 프로파일을 확립하고 잠재적 위험을 식별하는 데 중요한 역할을 합니다.

21.1 용어 정리

이상반응: 시험약과의 연관성을 반드시 규명할 수 없거나, 피험자에 발생한 예상치 못한 의학적 발생을 말합니다. 이는 임상시험 중 관찰된 모든 바람직하지 않은 의학적 사건을 포함합니다.
약물 이상반응: 의약품과 인과관계가 있다고 의심되는 유해하고 의도하지 않은 반응을 의미합니다. 이는 시험약과의 연관성이 있다고 판단되는 이상반응을 지칭합니다.
예상하지 못한 약물이상반응: 의약품의 허가사항이나 임상시험계획서에 기술되지 않은 성질이나 중증도의 이상반응을 말합니다. 이는 새로운 안전성 정보로 간주될 수 있습니다.
중대한 이상반응 또는 이상약물 반응: 사망, 생명을 위협하는 상황, 입원 또는 입원 기간 연장, 지속적인 장애나 기능 저하, 선천적 기형 등을 초래하는 반응을 의미합니다. 이는 즉각적인 보고와 평가가 필요한 중요한 안전성 정보입니다.

21.2 시험약의 안전성을 평가하는데 필요한 표본의 크기

시험약의 안전성 평가를 위한 표본 크기 결정은 매우 중요한 과정으로 아래 두 가지 참고할 만한 규칙이 있습니다. 다만 이런 규칙은 임상시험 설계 시 필요한 최소 표본 크기에 도움을 주는 것이며 실제 임상시험에서는 더 많은 요인들을 고려하여 표본 크기를 결정해야 합니다.

rule of 3: 이 규칙은 드문 이상반응을 탐지하는 데 유용합니다. 어떤 약물 이상반응의 실제 발생률이 n 명 중 한 명일 때, 3n 명의 환자를 관찰하면 적어도 95% 의 확률로 한 명 이상에서 해당 이상반응을 관찰할 수 있다는 것입니다. 이는 드문 이상반응의 발생 가능성을 추정하는 데 도움이 됩니다.²⁶
300 명 규칙: 300 명에게 시험약을 투여했을 때 특정 약물 이상반응이 관찰되지 않았다면, 95% 의 신뢰도로 해당 이상반응의 실제 발생률이 1% 미만이라고 말할 수 있습니다. 이는 상대적으로 흔하지 않은 이상반응의 발생률 상한을 추정하는 데 유용합니다.

21.3 개별 환자에서의 인과관계

개별 환자에서 약물 이상반응과 시험약 간의 인과관계를 평가할 때는 다음 조건들을 고려합니다. 이 조건들이 많이 만족될수록 인과관계의 가능성이 높아집니다:

시간적 연관성: 약물 투여와 이상반응 발생 사이의 시간적 관계가 적절한지 평가합니다.
용량관계: 약물 용량 증가에 따라 이상반응의 심각도나 빈도가 증가하는지 확인합니다.
시험약 재투여 혹은 투여중지: 약물 중단 시 이상반응이 사라지거나, 재투여 시 다시 나타나는지 관찰합니다.
생물학적 개연성: 약물의 작용 기전과 이상반응 발생 사이에 생물학적으로 설명 가능한 연관성이 있는지 검토합니다.
특이성: 해당 이상반응이 특정 약물에 특징적인 것인지 평가합니다.
일치성: 다른 연구나 보고에서도 유사한 이상반응이 관찰되었는지 확인합니다.
설명 방법이 없는 경우: 다른 요인으로는 이상반응을 설명할 수 없는 경우, 약물과의 인과관계 가능성이 높아집니다.

21.4 안전성 자료 평가법

안전성 자료 평가는 임상시험에서 수집된 안전성 정보를 체계적으로 분석하고 해석하는 과정입니다. 주요 평가 방법은 다음과 같습니다:

빈도 분석 : 이상반응의 발생 빈도를 계산하고 비교합니다. 치료군과 대조군 간의 이상반응 발생률 차이를 통계적으로 분석합니다.
중증도 평가 : 이상반응의 중증도를 등급화하여 분석합니다. 일반적으로 CTCAE(Common Terminology Criteria for Adverse Events) 기준을 사용합니다.
시간 - 사건 분석 : Kaplan-Meier 곡선이나 Cox 비례위험모형을 이용하여 이상반응 발생까지의 시간을 분석합니다.
인과관계 평가 : 개별 이상반응과 시험약 간의 인과관계를 평가합니다. 앞서 언급한 7 가지 기준 (시간적 연관성, 용량관계 등) 을 고려합니다.
하위그룹 분석 : 연령, 성별, 기저질환 등 환자 특성에 따른 안전성 프로파일 차이를 분석합니다.
누적 분석 : 장기 안전성을 평가하기 위해 이상반응의 누적 발생률을 분석합니다.
비교 위험도 분석 : 상대위험도 (Relative Risk) 나 오즈비 (Odds Ratio) 를 계산하여 치료군과 대조군의 위험을 비교합니다.
신호 탐지 : 예상치 못한 이상반응 패턴을 식별하기 위해 데이터 마이닝 기법을 사용할 수 있습니다.

22 자주 쓰이는 통계 기법

22.1 임상에서 통계

전수조사와 표본 조사: 전수조사는 모든 대상을 조사하는 방법이지만 현실적으로 어려워 일부만 조사하는 표본 조사를 주로 사용합니다.
추정:
- 점추정: 단일 값으로 모수를 추정합니다.
- 구간추정 (신뢰구간): 모수가 속할 것으로 예상되는 구간을 제시합니다.
가설검정: 귀무가설의 기각 여부를 통계적으로 판단합니다.
제 1 종 오류, 2 종 오류, 검정력:
- 제 1 종 오류: 귀무가설이 참일 때 이를 기각할 확률
- 제 2 종 오류: 대립가설이 참일 때 귀무가설을 기각하지 못할 확률
- 검정력: 1 - 제 2 종 오류 확률

22.2 어떤 통계검정방법이 가장 좋은 방법인가?

제 1 종 오류를 5% 이하로 유지하면서 검정력을 최대화하는 방법이 가장 좋은 방법으로 간주됩니다.

22.3 양측 검정과 단측검정

양측검정: 효과의 방향성을 모를 때 사용합니다.
단측검정: 효과의 방향성을 예측할 수 있을 때 사용합니다. 예를 들어, 시험약이 위약보다 우월한 경우를 검정할 때 사용합니다.

22.4 통계적 유의성과 임상정 유의성

통계적 유의성만 있는 경우: 효과가 작아도 표본 크기가 큰 경우 발생할 수 있습니다.
임상적 유의성만 있는 경우: 효과가 크더라도 통계적으로 유의하지 않을 수 있습니다.

22.5 임상결과해석에 신뢰구간이 더 중요한 이유

신뢰구간은 통계적 유의성과 임상적 유의성을 동시에 평가할 수 있어 가설검정보다 더 많은 정보를 제공합니다.

22.6 표준편차와 표준오차의 차이

표준편차: 자료의 퍼짐 정도를 나타내는 지표입니다.
표준오차: 추정량의 정확도를 나타내는 지표로, 여러 공식이 존재할 수 있습니다.

22.7 실험계획법

무작위 배정: 편향을 줄이기 위해 사용합니다.
반복: 정확도를 높이기 위해 사용합니다.
블록화: 외부 요인의 영향을 통제하기 위해 사용합니다.

22.8 Two-sample t-test

두 독립적인 집단의 평균을 비교하는 방법입니다. 이 검정은 두 집단이 서로 독립적이며, 각 집단의 데이터가 정규분포를 따른다고 가정합니다. 검정 통계량은 두 집단의 평균 차이를 표준오차로 나눈 값으로 계산됩니다.²⁷ 예시: 새로운 혈압 강하제의 효과를 평가하기 위해, 치료군과 대조군의 혈압 감소 정도를 비교합니다.

22.9 Paired t-test

동일한 대상의 전후 비교 등에 사용되는 방법입니다. 이 검정은 각 개체에 대해 두 번의 측정이 이루어질 때 사용됩니다. 예를 들어, 치료 전후의 효과를 비교할 때 유용합니다. 두 측정값의 차이가 정규분포를 따른다고 가정합니다.²⁸ 예시: 동일한 환자 그룹에서 특정 약물 복용 전후의 콜레스테롤 수치 변화를 비교합니다.

22.10 One-way ANOVA

세 개 이상의 집단을 비교할 때 사용하는 방법으로, 사후 검정 방법에는 Scheffe, Tukey-Kramer, Dunnett’s 방법 등이 있습니다. 이 방법은 분산분석 (ANOVA) 의 한 형태로, 여러 집단 간의 평균 차이를 동시에 비교할 수 있습니다.²⁹ 예시: 세 가지 다른 용량 (저용량, 중간용량, 고용량) 의 약물 효과를 비교하여 최적의 용량을 결정합니다.

22.11 공분산 분석

공변량의 영향을 보정하여 집단 간 차이를 분석하는 방법입니다. 이 방법은 실험 처리 효과와 함께 연속형 변수 (공변량) 의 영향을 동시에 고려할 수 있어, 더 정확한 처리 효과 추정이 가능합니다. 예시: 새로운 당뇨병 치료제의 효과를 평가할 때, 환자의 나이와 체중을 공변량으로 고려하여 분석합니다.

22.12 랜덤화 블록 설계

임상 시험의 효율을 높이기 위해 사용되는 실험 설계 방법입니다. 이 방법은 알려진 변동 요인을 블록으로 구분하여 처리하므로, 처리 효과를 더 정확히 추정할 수 있습니다. 예시: 항암제 임상시험에서 환자의 암 병기를 블록으로 사용하여 각 병기 내에서 치료군과 대조군에 균등하게 배정합니다.

22.13 회귀분석

변수 간의 관계를 모델링하는 방법입니다. 독립변수와 종속변수 간의 관계를 수학적 모델로 표현하여, 변수 간의 관계를 이해하고 예측에 활용할 수 있습니다. 예시: 환자의 나이, 체중, 운동량 등이 혈압에 미치는 영향을 모델링합니다.

22.14 범주형 자료 분석

카테고리 데이터를 분석하는 방법입니다. 주로 카이제곱 검정, Fisher 의 정확 검정 등이 사용되며, 범주형 변수 간의 관계나 분포의 차이를 분석합니다. 예시: 흡연 여부 (흡연자/비흡연자) 와 폐암 발생 (있음/없음) 사이의 관계를 분석합니다.

22.15 오즈비 (odds ratio)

두 사건의 발생 확률의 비율을 나타내는 지표입니다. 주로 case-control 연구에서 위험 요인과 질병 발생의 관련성을 평가하는 데 사용됩니다. 예시: 특정 유전자 변이가 있는 사람이 없는 사람에 비해 특정 질병에 걸릴 확률이 몇 배 높은지 계산합니다.

22.16 로지스틱 회귀분석

이진 결과변수에 대한 회귀분석 방법으로, 오즈비 계산이 가능합니다. 종속변수가 이진형 (예: 성공/실패) 일 때 사용되며, 독립변수와 종속변수의 확률 간의 관계를 모델링합니다. 예시: 환자의 나이, 성별, 혈압 등의 요인이 심장병 발생 확률에 미치는 영향을 모델링합니다.

22.17 생존분석

특정 사건 (예: 사망, 재발) 까지의 시간을 분석하는 방법입니다. Kaplan-Meier 곡선과 Log-rank 검정이 자주 사용됩니다. 예시: 새로운 항암제 치료를 받은 환자군과 기존 치료를 받은 환자군의 5 년 생존율을 비교합니다.

생존함수와 위험함수: 생존함수는 특정 시점까지 사건이 발생하지 않을 확률을, 위험함수는 특정 시점에서의 순간적인 사건 발생 확률을 나타냅니다. 위험함수가 커지면 사망 가능성이 높아집니다.
Kaplan-Meier 곡선: 시간에 따른 생존 확률을 그래프로 나타내는 방법으로, 중도 탈락한 데이터를 처리할 수 있어 자주 사용됩니다.
Log-rank test: 두 개 이상의 생존함수가 통계적으로 유의한 차이가 있는지 검정하는 방법입니다. 전체 관찰 기간에 걸친 생존 기간을 비교합니다.³⁰

23 Reference

Footnotes

https://m.medigatenews.com/news/3671926126↩︎
http://www.jcr.kr/Upload/Post_Case/1450158131_phpkvoj7J_-2.pdf↩︎
http://www.docdocdoc.co.kr/news/articleView.html?idxno=1062297↩︎
https://pipetcpt.github.io/book-stat/analysis.html↩︎
https://pipetcpt.github.io/book-stat/design.html↩︎
https://support.minitab.com/ko-kr/minitab/help-and-how-to/statistics/equivalence-tests/how-to/2-sample-equivalence-test/before-you-start/example/↩︎
http://www.kmdianews.com/news/articleView.html?idxno=28425↩︎
https://ko.wikipedia.org/wiki/%EC%9E%84%EC%83%81%EC%8B%9C%ED%97%98↩︎
https://pipetcpt.github.io/book-stat/design.html↩︎
http://www.hitnews.co.kr/news/articleView.html?idxno=46635↩︎
https://ko.wikipedia.org/wiki/%EC%9E%84%EC%83%81%EC%8B%9C%ED%97%98↩︎
https://ekja.org/upload/pdf/kjae-68-106_ko.pdf↩︎
https://pipetcpt.github.io/book-stat/analysis.html↩︎
https://3months.tistory.com/506↩︎
https://rimint02.tistory.com/m/153↩︎
https://blog.naver.com/PostView.naver?blogId=julcho&isHttpsRedirect=true&logNo=40207295594↩︎
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5654877/↩︎
https://en.wikipedia.org/wiki/Intention-to-treat_analysis↩︎
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3159210/↩︎
https://www.clinfo.eu/itt-vs-pp↩︎
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3159210/↩︎
https://greatjoy.tistory.com/78↩︎
https://syj9700.tistory.com/6↩︎
http://www.kmdianews.com/news/articleView.html?idxno=28425↩︎
http://www.mediclic.co.kr/info/bio↩︎
https://pipetcpt.github.io/book-stat/design.html↩︎
https://www.statology.org/two-sample-t-test/↩︎
https://en.wikipedia.org/wiki/Student’s_t-test↩︎
https://www.jmp.com/en_ca/statistics-knowledge-portal/t-test/two-sample-t-test.html)↩︎
https://www.graphpad.com/quickcalcs/ttest1/↩︎