PDB 데이터베이스에 숨겨진 5가지 진실

Bioinformatics
PDB
Protein databank
Tip
Author

Taeyoon Kim

Published

September 28, 2025

Modified

September 28, 2025

생명과학 연구의 심장부에는 단백질 데이터 뱅크(Protein Data Bank, PDB)라는 거대한 데이터베이스가 있습니다. 1971년 단 7개의 구조로 시작된 이 데이터베이스는 이제 277,000개가 넘는 분자 구조 모델을 보유한 방대한 아카이브로 성장했습니다. PDB는 질병의 원리를 규명하고 새로운 치료제를 설계하는 등 과학 발전에 결정적인 역할을 해왔으며, 이제는 단백질 구조 예측 기술을 발전시키는 데에도 핵심적인 기반이 되고 있습니다.

이처럼 엄청난 데이터의 가치는 아무리 강조해도 지나치지 않습니다. 연구자들은 PDB 덕분에 새로운 발견을 거대한 아카이브와 비교하고, 수천 개의 구조에서 나타나는 패턴을 분석하며 단일 구조만으로는 결코 알 수 없었을 통찰을 얻습니다. 하지만 이 놀라운 자원의 이면에는 종종 간과되는 복잡성과 미묘한 함정들이 존재합니다.

단순히 데이터를 다운로드하여 사용하는 것만으로는 충분하지 않습니다. PDB 데이터를 제대로 활용하기 위해서는 그 안에 숨겨진 특성과 한계를 이해해야 합니다. 이 글에서는 단백질 구조 데이터 작업을 할 때 반드시 알아야 할 5가지를 알아 보고자 합니다.

1 거대한 데이터 아카이브는 생각보다 편향되어 있습니다

PDB가 자연에 존재하는 모든 단백질을 균일하게 담고 있다고 생각하기 쉽지만 사실 그렇지 않습니다. 데이터베이스는 특정 종류의 단백질에 심각하게 편향되어 있습니다. 많은 데이터들이 X선 결정학을 통해 수집되었기 때문에 결정을 만들기 쉬운 작고, 둥근 특성을 가진 단백질 데이터가 압도적으로 많습니다.

반면, 우리 유전자의 20~30%를 차지함에도 불구하고 막단백질이나 유연하거나 정형화되지 않은 단백질(flexible or disordered proteins)은 PDB 전체 항목의 2%도 채 되지 않을 정도로 극심하게 과소 대표되고 있습니다. 여기에 더해 ’출판 편향’도 존재합니다. 신약 개발의 표적이 되거나 의학적 가치가 높은 인간 단백질은 집중적으로 연구되어 동일한 단백질의 구조가 수없이 등록됩니다. 이러한 경향은 최근 단편 기반 스크리닝 캠페인(fragment-screening campaigns)이 증가하면서 더욱 심화되고 있습니다.

더욱 놀라운 사실은 단백질이 생체 내에서 기능하는 단위인 4차 구조(protein complex)에 대한 정보조차 약 20%의 경우에서 부정확하다는 점입니다. 이는 PDB의 데이터가 그 자체로 완벽한 것이 아닌, 해석과 검증이 필요한 데이터임을 시사합니다.

2 ’고해상도’가 ’완벽함’을 의미하지는 않습니다

단백질 구조의 품질을 논할 때 가장 흔하게 사용되는 지표는 ’해상도(resolution)’입니다. 해상도가 높을수록 더 정밀한 구조를 의미하는 것은 사실이지만, 이것이 전부는 아닙니다. 고해상도 구조라 할지라도 거의 모든 구조에는 국소적인 오류가 몇 군데 포함되어 있으며, 해상도가 낮아질수록 이러한 오류는 구조 전반에 걸쳐 더 광범위하게 나타납니다.

여기서 한 가지 역설적인 사실은, 구조를 결정하는 실험 방법마다 해상도를 추정하는 방식이 근본적으로 다르다는 점입니다. 예를 들어, X선 결정학의 해상도는 원자 수준의 세부 정보를 직접적으로 반영하지만, 초저온전자현미경(cryo-EM)의 해상도는 두 개의 독립적인 재구성 이미지(half-maps) 간의 푸리에 쉘 상관관계(FSC)를 통해 계산됩니다. 이는 원자 단위의 정밀도보다는 두 이미지 간의 전반적인 유사성을 측정하는 지표이므로, 두 해상도 값을 직접적으로 비교하는 것은 적절하지 않습니다.

두 구조가 동일한 해상도를 가질지라도, 모델링된 정밀도의 수준은 다를 수 있습니다. 따라서 다른 품질 지표들을 함께 탐색하는 것이 필수적입니다.

이것이 바로 전문가들이 해상도 숫자 하나에만 의존하지 않고, 라마찬드란 이상치(Ramachandran outliers)와 같은 기하학적 정확성이나 R-값(R-values)처럼 실험 데이터와의 부합도를 종합적으로 평가하기 위해 MolProbity와 같은 검증 도구 모음을 사용하는 이유입니다.

3 모든 단백질 구조는 ’사진’이 아닌 ’모델’입니다

우리가 PDB 파일에서 보는 단백질 구조는 분자의 모습을 그대로 찍은 ’사진’이 아닙니다. 그것은 실험 데이터를 기반으로 과학자들이 해석하여 만든 과학적 ’모델’입니다. 이는 매우 중요한 차이를 만듭니다.

PDB 모델은 그저 모델일 뿐이라는 점을 기억하는 것이 중요합니다. 이 모델들은 기반이 되는 모든 실험 데이터를 설명하지 않으며 데이터 처리 과정에 따라 달라질 수 있습니다.

이는 동일한 원본 실험 데이터를 어떤 데이터 처리 프로그램을 선택하고 어떻게 정제(refinement) 과정을 거쳤는지에 따라 미묘하게 다른 최종 모델이 나올 수 있음을 의미합니다. 또한, 연구자들이 주로 관심을 갖는 결합 부위(binding site)는 단백질의 다른 부분보다 더 정교하게 모델링되는 경향이 있습니다. 이러한 편향은 결합 부위 잔기와 다른 영역 잔기의 유연성이나 보존성 같은 특성을 비교하는 분석 결과를 왜곡할 수 있어 주의가 필요합니다.

4 ’결정 속의 환상’을 조심해야 합니다

X선 결정학으로 구조를 얻을 때 발생하는 독특한 현상 중 하나로 ’결정 접촉(crystal contacts)’이 있습니다. 이는 단백질 분자들이 규칙적인 결정 격자 안에 빽빽하게 채워지면서 발생하는 비생물학적인 상호작용을 말합니다. 즉, 실험실의 결정 속에서만 일어나는 인공적인 접촉입니다.

이것이 왜 중요할까요? 이 결정 접촉은 놀라운 결과를 초래할 수 있습니다. 특정 형태의 단백질 구조를 인위적으로 안정화시키거나, 심지어 실제 우리 몸속(용액 상태)에서는 존재하지 않는 분자 간의 인터페이스를 만들어낼 수도 있습니다.

이는 PDB 파일에서 관찰된 단백질의 특정 상호작용이나 구조적 형태가 실제 생물학적 특징이 아니라 결정화 과정에서 생긴 ’환상’일 수 있다는 것을 의미합니다. 따라서 연구자들은 이러한 인공물을 배제하기 위해 신중한 통제와 비교 분석을 수행해야 합니다.

5 과학 데이터는 끊임없이 재분석되고 개선됩니다

데이터베이스에 한번 등록된 정보는 영원히 고정된 최종본이라는 생각은 흔한 오해입니다. 과학 데이터는 새로운 기술과 이해가 발전함에 따라 끊임없이 재분석되고 개선됩니다. 이러한 과학적 자기 교정의 대표적인 예가 바로 PDB-REDO 프로젝트입니다.

PDB-REDO는 PDB에 등록된 기존의 X선 구조들과 원본 실험 데이터를 가져와 현대적이고 자동화된 표준화된 방법으로 다시 처리하는 프로젝트입니다. 이러한 재정제(re-refinement) 과정은 종종 기존 모델보다 더 개선되고 신뢰할 수 있는 새로운 모델을 만들어냅니다. 하지만 2008년 이전에는 원본 실험 데이터(structure factors) 보관을 의무화 하지 않아 제외되는 것도 있다는 점을 기억하세요.

그럼에도 불구하고 이는 과학 커뮤니티가 단순히 데이터를 쌓아두는 데 그치지 않고, 시간이 지남에 따라 핵심적인 기초 데이터의 품질을 적극적으로 향상시키기 위해 노력하고 있음을 보여주는 증거입니다.

6 결론

단백질 데이터 뱅크(PDB)는 의심할 여지 없이 생명과학 연구를 위한 매우 귀중한 자원입니다. 하지만 그 데이터는 전문가가 올바르게 탐색해야만 하는 미묘한 뉘앙스와 잠재적인 함정으로 가득 차 있습니다. 데이터의 편향성을 인식하고 품질 지표를 비판적으로 해석하며, 구조가 ’모델’이라는 점을 기억하는 것은 정확한 과학적 결론을 내리기 위한 필수적인 과정입니다.

최근 알파폴드(AlphaFold)와 같은 인공지능(AI) 예측 모델의 등장은 단백질 구조 연구에 새로운 지평을 열었습니다. 이 모델들은 강력하지만 특히 정밀한 원자 수준의 세부 정보와 상호작용(“last-Ångstrom” 문제)에 있어서는 여전히 한계를 가지고 있다는 점을 명심해야 합니다.

AI가 방대한 양의 구조 데이터를 계속해서 생성해내는 미래에 우리는 다음과 같은 질문을 던져야 합니다. “이러한 ’모델’들을 비판적으로 평가하고 그 의미를 이해하는 능력을 어떻게 키울 수 있을까요?”