scRNA-seq 소개
얼마전 뉴욕 타임즈에 A.I. Is Learning What It Means to Be Alive 라는 제목의 기사가 공개되었습니다. 해당 기사에서 에 scRNA-seq
기초 모델이 단일 세포 RNA 시퀀싱 (scRNA) 데이터를 해석, 사용, 적용하는 방식을 어떻게 변화시킬 수 있는지에 대한 이야기가 있었는데 이 포스팅에서 더 깊이 파고들어 살펴보고자 합니다.
이 글은 A primer on scRNA-seq foundation models (owlposting.com)를 번역 및 요약한 글입니다. 단일 세포 생물학은 최신의 기술로 많은 부분에서 뜨거운 논쟁이 벌어지고 있습니다. 따라서 이 글의 일부는 다른 사람의 의견과 다를 수 있다는 점을 기억하세요.
1 scRNA-seq 이란 무엇인가?
먼저 모든 세포의 세포 정체성 (cellular identity) 을 알고 싶다는 생각을 해봅시다. 그러면 가장 먼저 드는 질문은 ” 세포의 정체성이란 정확히 무엇일까요?” 입니다. 세포 유형(cell types) 일까요?
뇌와 같은 장기를 생각해 보면 뇌에는 뉴런, 신경교세포, 희돌기아교세포 등 다양한 유형의 세포들이 있을 것입니다. 그렇다면 이런 세포들 간의 기능적 차이는 무엇이며, 과학자들은 어떤 기준에 따라 세포의 유형(cell type)을 명명했을까요?
가장 흔한 방법은 세포 내에 존재하는 단백질, 세포 표면에 존재하는 단백질, 세포가 분비하는 단백질 등을 통해 명명하는 것입니다. 동일한 단백질을 많이 공유하는 세포를 묶어서 세포의 정체성을 나타내었습니다. 실제로 단백질은 세포가 주변 세포와 소통하는 방법이며 자원을 섭취하고 자극에 반응하는등 수많은 과정에 관여합니다. 다만 단백질이 실제로 진정한 세포의 분화 요소는 아니며 대사산물이나 후성유전학적 변형이 더 중요하다는 주장도 있습니다. 하지만 세포 상태는 세포가 가지고 있는 단백질로 가장 잘 이해할 수 있다 는 가정을 하고 다음으로 넘어가죠.
그렇다면 세포 안의 단백질량을 정확히 측정할 수 있을까요? 물론 지금도 계속 사용되지만 과거에는 아래와 같은 방법들이 많이 사용되었습니다.
- 면역세포화학법 (Immunocytochemistry): 기본 원리는 단백질에 달라붙도록 특정 파장의 빛을 비추면 켜지는 작은 형광체가 부착된 항체를 사용하는 것입니다. 세포를 채취해 그 위에 이 항체를 뿌리면 형광 현미경으로 세포를 관찰할 수 있습니다. 예를 들어 목적 단백질이 주로 세포 표면에 있는 경우 각 세포 주변에 밝은 윤곽선을 볼 수 있습니다.
- 유세포 분석법 (Flow Cytometry): 이 기술은 특정 단백질을 검출하기 위해 항체를 사용한다는 점에서 면역세포화학법과 유사합니다. 그러나 유세포 분석은 현미경으로 세포를 보는 대신 유세포 분석기라는 특수 기기를 사용하여 세포를 하나씩 분석합니다. 분석기 내부에서 세포는 한 번에 하나씩 채널을 통과하며 세포가 통과할 때마다 레이저를 쏩니다. 세포가 형광 항체로 표지된 경우 유세포 분석기는 방출된 형광을 감지해 세포에 존재하는 단백질의 양을 정량화합니다.
- 질량 분석법 (Mass spectrometry): 기본적으로 세포를 가져다가 분해한 다음 그 안에 있는 모든 단백질을 분석하여 어떤 단백질이 있었는지를 파악하는 방법입니다. 먼저 효소를 사용하여 세포 단백질을 작은 조각으로 자릅니다. 이렇게 만들어진 펩타이드 조각은 일반적으로 약 10~20 개의 아미노산 길이입니다. 이 펩타이드 조각이 질량 분석기 내부로 들어가 질량 대 전하비 (m/z) 에 따라 분리되어 데이터를 얻을 수 있습니다. 그런 다음 이 데이터를 처리해 어떤 펩타이드가 존재했는지, 더 나아가 그 펩타이드가 어떤 단백질에서 유래했는지 식별합니다. 확인된 펩타이드를 단백질 데이터베이스와 비교해 어떤 단백질이 존재했는지 확인하고 정량화할 수 있습니다.
이런 방법들은 물론 좋은 분석법이지만 인체의 모든 세포의 단백질 지형을 파악하려는 원대한 목표에는 적절하지 않았습니다. 면역세포화학법은 시간이 많이 걸리고, 알려진 단백질에 결합하는 알려진 항체가 필요하며 (모든 단백질에 있는 것은 아닙니다!) 처리량이 매우 낮습니다 (세포 천개를 측정하는 것도 어렵습니다.). 유세포 분석은 처리량은 높지만 마찬가지로 알려진 항체에 의존하며, 뇌 조직이나 지방 조직과 같이 쉽게 현탁할 수 없는 조직에는 적용하기 어렵습니다. 마지막질량 분석법은 알려진 항체에 의존하지는 않지만 단백질 함량을 정확하게 판독하려면 엄청난 수의 세포가 필요하고, 희귀한 단백질을 놓칠 수 있으며 가장 시간이 많이 소요되는 방법입니다.
그러면 이제 어떻게 해야 할까요? 안타깝게도 세포의 단백질 지형을 학습하는 것은 지금까지 해결되지 않은 문제입니다. 그 문제를 해결하기 위한 접근법 중 하나가 RNA-seq 입니다. RNA-seq 은 간단히 말하면 세포내의 모든 mRNA 를 분리해 분석하는 방법입니다. mRNA 는 세포의 DNA 에서 전사 (Translation) 되어 리보솜으로 운반되며, mRNA 의 코돈 조각 (3 개의 염기서열이 1 개의 코돈) 을 해석해 단일 아미노산이 합성되어 사슬로 연결합니다. 예를 들면 mRNA 가 UUU-GUA-CCA
로 구성된 경우, 이는 아미노산 Phe-Val-Pro
의 단백질로 매핑됩니다.
그렇다면 특정 시점의 모든 mRNA 를 측정하면 간접적인 단백질의 발현량도 알 수 있지 않을까요? 글쎄요, 그렇게 간단하지는 않습니다.
먼저, 모든 mRNA 가 동일한 속도나 효율로 단백질로 번역되는 것은 아닙니다. 일부 안정적인 mRNA 가 존재하기는 하지만 대체로 mRNA 는 세포안에서 빠르게 분해됩니다. 즉, 리보솜에 의해 해당 단백질이 많이 만들어지기도 하고 한 번만 만들어지거나 만들어지지 않을 수도 있습니다. 다시 말해 세포 내 mRNA 의 양이 항상 단백질의 양과 완전 일치하지 않습니다.
또한 단백질 반감기가 다양하기 때문에 현재 세포에 풍부한 단백질은 mRNA 가 분해되었더라도 아직 존재할 수 있습니다. 반대로 mRNA 의 양이 늘어났지만 아직 단백질이 번역되지 않아 검출이 불가능한 경우도 있습니다.
마지막으로 mRNA 는 단백질에 완벽하게 일대일 매핑되지 않는데 많은 단백질이 PTM(post transcriptional modification) 을 거치므로 특정 환경에서는 같은 서열이어도 다른 구조를 가질 수 있기 때문입니다.
이런 mRNA 와 단백질 발현의 관계의 문제에 대해 2016 년 Cell에 실린 On the Dependency of Cellular Protein Levels on mRNA Abundance 논문에서는 다음과 같이 말했습니다.
정상 상태에서는 mRNA 수준이 단백질 수준을 설명합니다. 세포의 ’ 정상 상태 ’ 라는 것을 정의하는 것이 어렵지만 일반적으로 실험에 사용되는 세포의 평균 단백질 및/또는 mRNA 수준이 몇 시간정도 안정적으로 유지되면 정상 상태로 간주합니다. 지난 15 년 동안 발표된 수많은 연구에 따르면 이러한 상황에서 단백질 수준의 유전자 간 변화는 주로 각각의 mRNA 수준에 의해 결정됩니다.
또 다른 연구 에 따르면 mRNA 와 단백질 발현 수준간의 관계에 대한 분산이 조직에 따라 46-68% 로 알려져 있습니다. 그러니 전반적으로 mRNA 전사체 데이터가 세포 정체성의 근사치라고 할 수 있습니다.
2 세포 지도 (Cell Atlas) 란 무엇인가?
세포 지도는 수백 개의 기관과 수천 명의 과학자가 참여하는 테라바이트 크기의 데이터베이스입니다. 여기에는 다양한 조직의 수십만 개의 개별 세포의 전사체 데이터가 포함되어 있습니다. 즉, 여러 당사자가 ’ 전사체 지도 ’ 를 서로 공유하고 데이터를 결합 하려는 노력입니다. 이 글을 쓰는 현재 사람, 생쥐, 선충, 영장류, 제브라피쉬, 초파리 등에 대한 세포 지도가 만들어져 있으며 그 중 상당수는 특정 질병에 대한 정보도 포함하고 있습니다.
사람의 세포 지도는 서두에서 언급한 목표인 “모든 세포에 대한 세포 정체성을 알아내는 것” 을 해결하려는 시도 중 하나입니다. 과학자들은 관심 있는 조직에서 병든 세포 상태와 건강한 세포 상태가 어떻게 다른지 이해하고, 약물 반응을 예측하고, 새로운 단백질/유전자/세포 유형을 완전히 밝혀내는 데 사용할 수 있기를 바라고 있죠.
3 scRNA-seq 데이터의 잠재적인 문제
방대한 양의 scRNA-seq 데이터를 생성하는 것은 점점 쉬워지고 있지만 이를 검증하는 것은 더 어려워 지고 있습니다. 그것은 scRNA-seq 데이터가 가지고 있는 잠재적인 두 가지 문제가 있기 때문입니다.
- 배치 통합 (Batch integration) 문제: scRNA-seq 데이터에는 실험자의 작업 방식에 약간의 차이로 인해 고유한 이상 현상이 발생합니다. 이것을 배치 효과라 합니다. 그래서 서로 다른 데이터 세트간의 결합이 어렵습니다. 배치 효과를 제거하는 방법은 많이 알려져 있지만 아직까지는 모델 수준입니다.
- 세포 유형 주석 (Cell annotation) 문제: 일반적으로 세포 유형은 특정 마커 유전자 (예: Treg 세포의 경우 FOXP3) 의 발현 여부에 따라 주석을 달고, 마커가 없거나 여러 개의 마커를 가진 세포의 경우 보다 명확하게 정의된 유형을 가진 세포와의 전사체 근접성을 비교해 주석을 답니다. 그런데 세포를 비교하는 기준은 세포 유형에 따라 달라지는 경우가 많고 희귀하거나 잘 알려지지 않은 세포 유형에 대해서는 신뢰할 수 있는 결과를 얻기 어렵습니다.
이 두 가지 문제가 해결되면 scRNA-seq 데이터는 훨씬 더 유용해 질 것 입니다. 특히 만약 전사체를 동일한 수치 공간으로 변환할 수 있도록 일반화된 모델을 만들어낸다면 단순히 세포 유형을 예측하는 것 뿐만 아니라 세포에 대해 훨씬 더 많이 이해할 수 있을 것입니다. 예를 들면 제 2 형 당뇨병 환자 샘플을 통해 과도한 당분이 세포에 어떤 변화를 일으키는지 알 수 있을 것이고 세포가 어떻게 변화되는지 이해할 수 있을 것입니다. 또한 기반 모델은 학습된 데이터를 뛰어넘어 특정 약물이 세포 상태를 어떻게 변화시킬지 예측하고 종양 발생 궤적을 이해하거나 생검이 불가능한 희귀 질환 환자의 전사체를 예측할 수도 있을 겁니다.
4 scRNA 기반 모델
4.1 역사
기반 모델 (Foundation Models) 은 일반적으로 광범위한 데이터에 대해 학습된 모델로 다양한 다운스트림 분석을 적용 (예: 미세 조정) 할 수 있는 모델입니다. 이런 기술은 자연어 처리 분야에서 가장 널리 사용되지만 최근에는 이미지 (DALL-E), 오디오 (MusicGen), 심지어 아미노산 서열 (ESM2) 등 다양한 분야로 확장되었습니다.
거의 모든 다른 개념과 마찬가지로 임베딩 개념은 2010 년대 초까지 거슬러 올라가는 등 이전에도 광범위하게 시도되어 왔으며 기반 모델이 임베딩 개념을 처음 고안한 것은 아닙니다. 하지만 단순한 선형 임베딩 방식에 의존하거나 훈련된 정확한 섭동에 국한되거나 비교적 작은 데이터 세트에 대해 훈련되는 등 그 범위는 제한적이었습니다. 마크오브바이오의 블로그 게시물 에서 이런 단점에 대해 자세히 설명합니다. scVI 와 같이 다양한 데이터 세트에서 훈련된 비선형 데이터 변환을 다룬 논문이 몇 편 있었지만, 그 결과는 논문으로서 흥미롭기는 하지만 실제로 유용하기에는 여전히 모호한 영역에 머물러 있었습니다.
하지만 혁신적인 Attention Is All You Need 논문에 의해 거대 모델과 방대한 양의 데이터가 특별한 모델을 만들 수 있다는 믿음이 점점 커지면서 생물학자들은 자체적인 scRNA-seq 기반 모델을 구축하기 시작했습니다. 2024 년 3 월 현재, scFormer, scFoundation, GeneFormer, scBERT, scGPT, Universal Cell Embeddings 등 여러 가지의 기반 모델이 공개되었습니다. 이런 모델들이 만들어질 수 있었던 원동력은 앞서 이야기한 바 있는 세포 지도입니다. 각각의 모델은 지난 10 년 동안 모아왔던 여러 개의 세포 지도 데이터를 학습 데이터로 사용해 그 어떤 모델보다 세포 상태를 더 잘 이해할 수 있게 되었습니다.
4.2 Universal Cell Embeddings
UCE 는 2023 년 11 월에 공개되었으며 scRNA-seq 데이터를 분석하는 사람들에게 정말 중요한 도구가 될 것으로 보입니다. 아래와 같은 특징이 있기 때문이죠.
- 다른 기반 모델들은 인간 세포에 한정된 반면에 UCE 모델은 인간, 생쥐, 여우원숭이, 제브라피쉬, 돼지, 붉은털원숭이, 필리핀원숭이 (cynomolgus monkey), 발톱개구리등의 총 8 가지 종의 데이터셋을 학습에 사용하였습니다.
- UCE 모델은 미세 조정이 필요 없는 유일한 모델입니다. 즉, 추가적인 학습없이도 103 개의 조직 및 다양한 종의 세포를 분류 할 수 있습니다.
- Chan Zuckerberg Biohub Network 의 지원을 받고 있습니다. Chan Zuckerberg Biohub Network 은 타불라 사피엔스, 타불라 무리스, 타불라 무리스 세니스, 타불라 마이크로세버스, CellXGene 등
scRNA-seq
데이터를 가장 많이 생성하고 공개하는 곳입니다. - 다른 기반 모델보다 성능이 뛰어납니다.
- 완전히 새로운 종에서 수집한 세포의 임베딩을 UMAP 으로 그려볼 수 있습니다. UCE 는 종간의 정보도 학습했기 때문에 (물론 임베딩 플롯은 항상 약간의 논란이 있을 수 있지만) 영장류와 닭 세포 유형을 분리할 수도 있습니다. 자세한 알아보기.
- 새로운 세포 유형을 찾을 수 있습니다. 희귀한 세포 유형이 포함된 scRNA 데이터셋을 통해 제로 샷 임베딩을 수행하면 새로운 세포 유형을 구분하는 간단한 이진 분류기를 만들 수 있습니다. 이 분류기를 사용하면 그동안 데이터 세트에 흩어져 있는 세포들을 찾아 낼 수 있는 것입니다.
- 마지막으로 암조직(COPD 및 IPF)과 정상 조직의 유전자 발현 차이를 조사할 수 도 있습니다. 여기서 흥미로운 점은 이 유전자 발현의 차이가 새롭게 발견한 희귀 세포 유형에서 발생했다는 것입니다.
3 년이 지난 후에도 여전히 강세를 보이는 알파폴드 같은 모델처럼 UCE 가 기반 모델의 승자가 될까요? 아직 확신하긴 어렵습니다. 다만 UCE이 현재 가장 좋은 성능을 보이는 모델이라는 것은 확실해 보입니다.
5 앞으로는 어떻게 될까?
scRNA-seq 기술이 발전하면서 앞으로 더 크고 많은 데이터를 모으게 될 것입니다. 그러면 이런 기반 모델이 더 이상 RNA-seq에만 적용되는 것이 아니라 대사체학, 단백질체학, 후성유전체학, 그리고 공간 전사체학 등 세포와 관련된 모든 데이터에 적용되는 세상이 올 것입니다. 그리고 이미 ATAC-seq에서 수집한 전사 영역을 학습하기 위해 염색질 접근성 데이터를 사용하는 기초 모델에 대한 논문과 UCE 사전 학습의 일부를 사용해 단백질 구조를 예측한 논문등이 나오고 있습니다. 모든 생물학 데이터들을 기계학습에 활용하는 것은 시간 문제입니다. 가까운 미래에 더욱 흥미로운 모델과 활용법이 우리를 놀랍게 할 것입니다.