Nature Methods 데이터 시각화 컬럼 모음
Bang Wong, Martin Krzywinski, Nils Gehlenborg, Cydney Nielsen, Noam Shoresh, Rikke Schmidt Kjaergaard, Erica Savig, Alberto Cairo이 Nature Methods에 데이터 시각화에 대한 컬럼을 35편 썼습니다. 이글은 이런 자료들을 더 쉽게 찾아볼 수 있도록 한곳에 모아 정리한 것으로 많은 분들이 데이터 시각화를 하는데 도움이 되길 바랍니다.1
0.1 생물학 데이터 시각화는 필수 도구
오늘날 생물학 연구에서는 방대한 양의 데이터가 쏟아져 나오고 있으며 데이터를 효과적으로 탐색하고 소통하기 위해 데이터 시각화가 필수적입니다. 데이터 시각화의 궁극적인 목표는 복잡한 데이터를 사람들이 쉽고 명확하게 이해하고 설명할 수 있도록 돕는 것입니다. 모든 생물학적 데이터에 시각화가 필요한 것은 아닙니다. 하지만 다음과 같은 경우 데이터 시각화는 강력한 이점을 갖습니다.
- 패턴 탐색: 데이터의 규칙성을 아직 모를 때 시각화는 패턴을 찾아내는 데 효과적입니다.
- 알고리즘 보완: 자동화된 계산으로는 파악하기 어려운 데이터의 세부 사항(예: 유전체학의 구조적 변이)을 시각적으로 명확하게 이해할 수 있도록 돕습니다.
결론적으로 잘 디자인된 데이터 시각화는 복잡한 인지적 평가를 직관적인 지각적 이해로 바꿔주기 때문에 데이터를 이해하는 데 강력한 도움이 됩니다. 특히 방대한 데이터가 생산되는 현대 생물학 연구에서 시각화는 매우 중요한 역할을 합니다.
1 구성 및 레이아웃
1.1 쉽고 명확한 정보 전달을 위한 디자인
디자인의 가장 중요한 원칙은 유용성과 기능입니다. 잘 만들어진 물건이 쓰기 쉬운 것처럼 여러분의 그래프와 포스터도 보고 이해하기 쉬워야 합니다. 훌륭한 디자인은 그 물건이 어떤 기능을 하는지 명확한 단서를 주는 것입니다. 예를 들어, 지하철 노선도는 도시의 한 곳에서 다른 곳으로 이동하는 방법을 찾는 데 매우 효율적인 도구입니다. 만약 기차 정보를 단순히 정류장과 연결 표로만 제공한다면 두 지점 사이의 가장 빠른 길을 찾는 것은 훨씬 더 어려울 겁니다.
따라서 그래프를 디자인할 때는 정보를 표현하는 체계적인 방법을 사용 하는 것이 중요합니다. 다른 종류의 정보를 명확하게 구분해 독자들이 발표 내용을 쉽게 이해할 수 있게 해야합니다.
또한 탄탄한 디자인 아이디어 개념과 뛰어난 기술 실행 능력이 좋은 결과물을 만드는 데 필요합니다. 디자인은 탐색적인 과정이므로 머릿속의 아이디어를 현실로 만들고 필요에 따라 그래픽 요소를 다듬을 수 있는 능력이 필요합니다. 그러니 그래픽 소프트웨어를 능숙하게 다룰 수 있도록 시간을 투자하세요.
1.2 레이아웃: 정보 전달을 위한 시각적 정리의 기술
레이아웃은 발표 자료를 명확하게 만들기 위해 글과 그림을 페이지에 보기 좋게 배치하는 작업입니다. 그래픽 디자인에서는 모든 시각적인 정보를 전달하는 데 레이아웃이 가장 기본이 됩니다. 내용을 잘 정리하면 복잡한 정보도 독자들이 쉽게 따라갈 수 있지만 자료가 뒤죽박죽이면 독자들을 헷갈리게 합니다.
많은 예술가들은 ’황금 비율’이라는 특별한 수학적 관계를 사용합니다. 황금 비율은 어떤 선을 두 부분으로 나눴을 때, 전체 길이와 긴 부분의 비율이 긴 부분과 짧은 부분의 비율과 같아지는 것을 말합니다(대략 13:8 비율). 또한 황금 비율과 관련이 있는 ’피보나치 수열’은 그래픽 디자인에 많은 영향을 줍니다.(예 1, 2, 3, 5, 8, 13 등). 피보나치 숫자는 사용해 글꼴 크기나 책 페이지 레이아웃을 결정에 자주 사용되기 때문이죠.
황금 비율을 실제로 활용하는 방법은 우리가 만드는 슬라이드와 포스터에 조화로운 비율을 적용하는 것입니다. 이는 단순히 예술적인 이유뿐만이 아닙니다. 페이지에 요소를 어디에 배치하느냐에 따라 의미를 전달할 수 있기 때문입니다. 황금 비율을 간단하게 적용한 것이 바로 ‘삼등분할 법칙’입니다. 이 법칙은 페이지를 가로세로로 3등분 하여 총 9개의 구획을 만들고, 이 선을 따라 또는 선이 교차하는 지점(이른바 ’파워 포인트’)에 중요한 요소를 배치하면 시각적으로 더 눈에 띄게 됩니다. 시선 추적 연구에 따르면 사람들은 이미지를 볼 때 이러한 선으로 표시된 영역에 시선이 더 오래 머무는 경향이 있다고 합니다.
’그리드’를 사용하여 레이아웃을 잡으면 내용의 크기나 배치를 대충 짐작하지 않아도 되므로 디자인 과정을 훨씬 쉽게 만들 수 있습니다. 작업을 시작하기 전에 파워포인트나 어도비 일러스트레이터 같은 프로그램에서 미리 안내선(가이드)을 전략적으로 배치해보세요. 그리드는 내용을 고정시켜 디자인 전체에 안정감을 주고, 슬라이드 간의 일관성을 만들어 독자들이 다음에 나올 내용이 어디쯤에 나타날지 예상할 수 있도록 돕습니다.
레이아웃은 단순히 그리드 선을 그리는 것이 아니라 독자의 시선이 어떤 경로로 움직이기를 원하는지 계획하는 과정입니다. 이는 내용의 중요도를 파악하여 무엇을 먼저 읽고 무엇을 나중에 읽을지 명확하게 보여주는 것입니다.
우리는 모든 자료에 똑같은 시각적 내용으로 가득 찬 슬라이드와 포스터를 종종 보게 됩니다. 이런 경우 어디서부터 읽어야 할지 알기 어렵습니다. 전설적인 그래픽 디자이너 폴 랜드는 “대비가 없으면 죽은 것이나 마찬가지다”라고 말했습니다. 이처럼 레이아웃은 그래픽 디자인의 기본이자 정보 이해에 큰 영향을 줍니다.
1.3 게슈탈트 이론
게슈탈트 이론은 사람들이 시각 정보를 어떻게 인식하고 정리하는지를 설명하기 위해 1920년대에 제안된 심리학 이론입니다. 독일어로 ‘형태’ 또는 ’형식’을 뜻하는 ’게슈탈트’는 우리가 개별적인 시각적 요소들을 모아 하나의 ’통합된 전체’로 인식하는 방식을 설명합니다.
게슈탈트는 부분과 전체의 상호작용을 강조합니다. 게슈탈트 심리학의 창시자 중 한 명인 쿠르트 코프카는 “전체는 부분의 합과는 다르다”고 말했습니다. 단순히 각 부분의 합을 넘어서는 새로운 의미가 창출된다는 점입니다. 이 이론의 핵심 개념은 그룹화입니다. 우리는 비슷하게 보이거나, 가까이 배치되거나, 선으로 연결되거나, 공통된 공간 안에 둘러싸인 객체들을 함께 속한 것으로 인식하는 경향이 있습니다. 이는 정보에 대한 맥락을 구축하는 강력한 방법입니다.
1.3.0.1 유사성 원리
유사성 원리는 우리가 시각적으로 비슷한 요소들을 한 그룹으로 묶어 인식하는 경향을 설명합니다. 즉, 색상, 크기, 모양 등이 비슷한 것들은 서로 관련이 있다고 생각하는 것이죠. 이 원리는 데이터 시각화에서 범주를 구분할 때 흔히 사용됩니다. 또한, 글꼴, 글꼴 크기, 방향, 여백과 같은 그래픽 처리 방식을 반복적으로 사용하여 문서 내의 요소들이 서로 더 관련 있어 보이도록 디자인할 수 있습니다.
1.3.0.2 근접성 원리
근접성 원리는 서로 가까이 배치된 객체들을 한 그룹으로 인식하는 경향을 말합니다. 이 원리는 그림 패널을 배열할 때 유용하게 적용됩니다. 예를 들어, 여러 개의 패널이 균일하게 떨어져 있을 때는 무엇을 기준으로 분석해야 할지 모호할 수 있습니다. 하지만 비교해야 할 패널들을 가깝게 배치하여 그룹화하면, 독자는 자연스럽게 그 관계를 파악하게 됩니다. 반대로, 패널을 순서대로 읽도록 유도하고 싶다면 한 줄로 배열하는 것이 효과적입니다.
1.3.0.3 연결성 및 폐쇄성 원리
연결성 원리는 선이나 다른 시각적 연결 고리로 이어진 객체들을 통합된 그룹으로 인식하는 경향입니다. 유사성이나 근접성으로 묶인 객체들이 느슨한 연합으로 보이는 반면, 선으로 연결하면 연결성 원리에 의해 객체들을 훨씬 더 강하게 연관되게 보입니다.
폐쇄성 원리는 공통된 영역 안에 요소들이 둘러싸여 있을 때 하나의 그룹으로 인식하는 경향을 말합니다. 이 원리는 유사성, 근접성, 심지어 연결성보다도 강력하게 객체들을 통합된 전체로 묶어줍니다.
1.3.0.4 시각적 완성 원리
시각적 완성(Visual Completion), 또는 시각적 보간(interpolation)은 실제로 존재하지 않는 윤곽선을 보게 되는 흥미로운 착시 현상을 만듭니다. 우리는 가능한 보이는 것에서 패턴을 찾으려는 경향이 있습니다. 따라서 우리는 프레젠테이션을 어지럽히는 불필요한 선, 상자, 글머리 기호 및 기타 그래픽 요소를 생략하여 깔끔하고 효과적인 디자인을 해야합니다.
1.3.0.5 연속성 원리
우리 눈은 작은 정렬 불일치에도 매우 민감합니다. 이것을 연속성(Continuity) 원리라고 합니다. 따라서 시각적 요소를 가이드에 맞춰 정렬하는 것이 보는 사람이 패턴을 식별하는 데 도움이 됩니다. 그래서 정렬 가이드를 사용하여 구성된 그림은 깔끔하고 전문적으로 보이게 됩니다.
1.4 여백(Negative Space): 디자인의 숨겨진 힘
여백(Negative Space)은 페이지의 여백뿐만 아니라 텍스트 블록, 이미지 사이의 간격등을 의미 합니다. 여백은 제목, 글, 그림만큼이나 디자인에 중요한 부분으로 디자인 요소들에게 숨 쉴 공간을 줄 뿐만 아니라 시각적 매력과 효과를 극적으로 향상시킬 수 있습니다.
1.4.1 여백의 중요성
과학자의 발표 자료는 대개 내용으로 빽빽하게 채워져 있습니다. 일부 사람은 여백이 불필요하다고 여기거나 심지어 페이지가 가득 채워지지 않는다고 불평하기도 합니다. 그러나 내용이 빽빽한 없는 슬라이드와 포스터는 여백이 불규칙하기 때문에 이해하기 어렵습니다.
1.4.2 효과적인 여백 넣기
이미지와 텍스트를 글자 그대로 또는 시각적으로 추상화된 ‘상자’ 안에 넣어서 레이아웃을 만드세요. 그러면 양의 공간과 음의 공간의 분포가 명확해집니다. 일반적인 팁을 주자면 섹션을 구분할 때 더 넓은 간격을 사용하고 섹션 내의 항목을 분리 할때는 더 얇은 간격을 사용하는 것입니다. 그리고 텍스트의 경우 글자 사이의 간격, 줄의 길이, 줄 사이의 간격을 조절해 추상화된 상자에 맞춥니다. 이런 방식의 여백은 독자에게 콘텐츠의 계층과 구성을 전달할 수 있습니다.
1.4.3 여백으로 시선 집중시키기
여백은 독자의 주의를 끄는 가장 효과적인 방법 중 하나입니다. 강조하고 싶은 콘텐츠를 상대적으로 더 많은 여백으로 둘러싸 보세요. 페이지의 해당 부분으로 시선을 이끌 것입니다.
1.5 중요한 부분 강조하기
두드러짐(Salience)은 객체를 주변 환경과 차별화시키는 속성입니다. 특히 슬라이드 프레젠테이션과 같은 시각 자료에서는 두드러짐과 정보의 관련성(relevance)이 일치하는지 확인하는 것이 필수적입니다. 청중이 내용을 동시에 듣고 읽는 상황이므로 정보 전달의 효율성이 무엇보다 중요하기 때문이죠.
예를 들어, 표의 특정 행이나 열에 색깔을 입히면 선택된 자료에 시선이 집중될 것입니다. 표 형식의 정보는 일반적으로 균일하게 보이기 때문에, 가장 중요한 것이 무엇인지 명확히 하는 것이 도움이 됩니다. 그래프에도 데이터의 특정 부분을 강조 구분을 하면 청중이 발표 내용과 시각 자료를 더 잘 이해하도록 돕는 방법이 될 수 있습니다.
1.5.1 의도치 않은 두드러짐의 위험
반대로 부주의하게 두드러짐을 남용하면 오히려 독자에게 잘못된 메세지를 줄 수 있습니다. 예를 들어 움직이는 이미지(예: 회전하는 3차원 단백질 구조)을 넣을 때는 주의해야 합니다. 왜냐하면 움직이는 이미지가 독자의 주의를 전부 집중시켜 다른 콘텐츠를 보지 못하게 합니다. 따라서 파워포인트 애니메이션은 신중하게 사용해야 하며, 움직이는 요소는 반드시 슬라이드의 주요 메시지를 뒷받침하는 콘텐츠여야 합니다.
동일한 콘텐츠도 어떻게 제시되느냐에 따라 이해도에 극적인 영향을 줍니다. 항상 화면에서 잠시 물러서서 무엇이 가장 두드러지는지 파악하려고 하세요. 그리고 가장 시각적으로 두드러지는 정보는 당신의 핵심 메시지여야 합니다.
1.5.2 효과적인 글쓰기 원칙을 그림 디자인에 적용하기
효과적인 글쓰기 원칙을 그림 디자인에 적용하면 어려움을 극복하고 체계적인 방식으로 시각 자료를 만들 수 있습니다. 마치 글의 단어 하나하나를 다듬듯이, 그림의 각 부분도 평가하고 최적화되야 합니다.
핵심 원칙:
명확성과 간결성: 복잡하고 이해하기 어려운 문장처럼 혼란스럽고 과도하게 꾸며진 그림(‘차트 잡동사니’)은 피해야 합니다. 번쩍이는 질감, 그라데이션, 불필요한 형태의 증식은 데이터를 해석하기 어렵게 만들고, 특정 부분을 강조하는 것을 방해하며 빈약한 데이터를 결코 구제할 수 없습니다.
평행 구조와 시각적 강조: 관련 아이디어를 시각적으로 강화하려면 ’평행 구조’를 사용하세요. 즉, 유사한 아이디어를 비슷한 시각적 형태로 표현하여 정보 간의 관계를 명확히 보여주세요. 중첩, 범주 계층, 중요성을 직관적으로 나타내는 모양과 색상을 선택하는 것이 중요합니다.
2 데이터 시각화에서 색상
2.1 색상의 선택
색상은 명확성을 더할 수 있는 강력한 도구이지만 잘못 사용하면 오히려 혼란을 초래하거나 잘못된 정보를 전달할 수 있습니다.
2.1.1 색상의 올바른 사용법
- 무지개색을 정량적 데이터에 사용하지 마세요. 무지개 색상은 그 자체로 순서에 대한 모호성이 있어 혼란을 줄 수 있습니다. 또한 특정 색상이 시각적으로 더 길거나 짧게 느껴지는 착시를 유발할 수 있습니다.
- 무지개색은 범주형 데이터에 사용하세요. 반면에 무지개색은 범주형 데이터(예: 실험 조건 구분)를 나타내는 데 효과적입니다.
- 색상 편향에 주의하세요. 특정 범주에 강렬하거나 약한 색상을 사용하면 독자에게 편향을 줄 수 있습니다. 구분 가능하면서도 시각적 가시성이 비슷한 색상을 선택하세요.
2.1.2 색상의 세 가지 속성과 활용법
모든 색상은 색조(hue), 채도(saturation), 명도(lightness)의 세 가지 속성으로 설명됩니다.
- 색조: 색상을 빨간색, 노란색 등으로 분류하는 속성입니다.
- 채도: 색상의 순수함, 예를 들면 흰색이 거의 없는 빨간색 물체는 채도가 매우 높다고 합니다.
- 명도: 색상의 밝기 또는 어둡기를 나타냅니다.
색상 선택 팁:
- 흑백으로 변환해도 구별 가능하도록 명도를 변화시키면서 색상환을 나선형으로 통과하는 색상을 선택하세요.
- 이러한 방식으로 6~8가지 색상 그룹을 정의하는 것이 이상적입니다. 그 이상은 독특한 색상을 선택하기 어려워집니다.
- 더 많은 범주를 표시해야 한다면 색상 외에 질감(texture)의 차이를 활용할 수 있습니다(예: 빨간색 십자가와 빨간색 원).
- 시각적 개체의 크기도 중요합니다. 개체가 작거나 선이 얇을수록 색조, 채도, 명도의 더 큰 변화가 필요합니다.
2.1.3 색맹을 고려한 색상 사용
적록 색맹(protanopia/deuteranopia)은 생각보다 많이 존재합니다. 따라서 색맹 독자에게도 적합한 색상을 선택하는 것이 좋습니다. 도구 활용: 소프트웨어를 사용하여 적록 색맹인 사람들에게 이미지가 어떻게 보일지 시뮬레이션해 볼 수 있습니다.
- Vischeck: 웹 기반 도구라 간편합니다.
- DanKam 앱 (iPhone/Android): 휴대폰 카메라로 들어오는 색상 스펙트럼을 색맹인 사람들이 볼 수 있는 범위 내로 이동시킵니다.
- eyePilot 및 Visolve Deflector를 사용하여 화면의 모든 색상을 조작할 수 있도록 합니다.
2.2 과한 색상 사용의 문제점
때로는 색상을 사용하지 않는 것이 더 나은 선택일 수 있습니다.
- 데이터 왜곡 및 편향: 색상이 잘못 사용되면 전혀 사용하지 않는 것보다 못할 수 있습니다. 색상이 잘못된 정보를 눈에 띄게 하거나, 의미 있는 정보를 보기 어렵게 만들 수 있기 때문입니다.
- 시각적 혼란: 과도한 색상 사용은 혼란을 야기해 수많은 요소들이 우리의 주의를 끌기 위해 경쟁하게 만듭니다.
2.3 정량적 데이터의 색상 고려사항
데이터를 시각화할 때 색상 사용은 매우 중요합니다. 특히 숫자 값을 가지는 정량적 데이터는 그 특성상 색상 매핑에 신중을 기해야 합니다. 데이터의 구조에 따라 색상 선택이 달라지며, 이는 전달하고자 하는 정보의 정확성과 명확성에 큰 영향을 미칩니다.
데이터를 시각화하기 위해 먼저 데이터에 내재적인 순서가 있는지 없는지를 구분해야 합니다. 예를 들어 박테리아 종 목록은 순서가 없는 ’범주형 데이터’입니다. 반면 유전자 발현 값은 낮은 값부터 높은 값까지 정렬할 수 있는 ’순서가 있는 데이터’로 분류됩니다. 이런 정량적 데이터에 적절한 색상 맵을 만드는 것이 중요합니다.
색상은 의료 영상부터 원형 차트에 이르기까지 데이터 표현에서 가장 중요한 시각적 요소 중 하나입니다. 색상의 세 가지 주요 구성 요소인 색조(hue), 채도(saturation), 명도(lightness)를 조절함으로써 색상은 레이블링, 수량 표시, 현실 표현 또는 시뮬레이션, 활성화 및 장식과 같은 다양한 기본적인 의사소통 요구를 충족시킬 수 있습니다.
정량적 데이터는 그 요소들이 수치적인 척도 위에 놓여 서로의 상대적인 위치와 크기를 나타낸다는 점에서 범주형 데이터와 다릅니다. 이러한 상호 관계 때문에 데이터의 범위와 크기 변화에 지각적으로 일관된 색상 맵을 설계하는 것이 중요합니다.
2.3.1 색상맵 고려사항
색상맵을 설계하기 전에 데이터에서 강조하고자 하는 주요 영역이나 지점을 먼저 정의해야 합니다.
양수 또는 음수 값만 있는 데이터: 데이터에 양수 값 또는 음수 값만 있는 경우, 순차적인 색상 맵을 사용하는 것이 직관적입니다. 이는 명도만 10%에서 90% 검정까지 변화시키는 방식입니다. 이러한 색상 진행은 전체 범위에 걸쳐 균일한 전환을 만듭니다. 색상 그라디언트의 끝을 0과 이론적 최대값에 매핑하거나 관찰된 최소값과 최대값에 매핑하는 두 가지 옵션이 있습니다. 후자의 접근 방식은 시각적 표현에서 더 높은 대비가 필요하고 0이 기준점으로 관련이 없을 때 유용합니다.
두 개 이상의 관심 영역을 포함하는 데이터: 데이터에 양수 및 음수 값이 모두 포함되어 분포의 하단과 상단 그리고 0을 구분해야 하는 경우, 분기형(diverging, 또는 양극성) 색상 스키마가 효과적입니다. 이 스키마는 색조와 채도를 모두 사용합니다. 색조는 양수와 음수 값을 구분하는 데 사용하고(예: 빨간색과 파란색), 채도는 상대적인 크기를 나타내는 데 사용하며, 채도가 높을수록 더 큰 크기의 값을 나타내고 채도가 없으면 0을 나타냅니다.
2.3.2 색상맵에 유용한 도구들
색상 전문 지식이 없는 사용자도 적절한 색상 맵을 선택하는 데 도움을 줍니다.
- 펜실베이니아 주립대학교의 ColorBrewer
- NASA의 Color Tool
3 데이터 그림의 요소
3.1 타이포그래피
타이포그래피는 글자를 배열하는 기술이자 예술입니다.
3.1.1 서체와 글꼴의 이해
서체(typeface)의 글자 형태는 세리프(serif)와 산세리프(sans serif)로 나뉩니다.
- 세리프 서체: 대체로 얇고 더 격식 있으며 ‘serif’ 부분이 눈이 줄을 따라가는 데 도움이 되므로 여러 줄의 텍스트 블록에서 읽기 쉽습니다.
- 산세리프 서체: 글자 형태가 더 단순하고 긴 텍스트에서는 가독성이 떨어진다고 주장하므로 제목이나 레이블과 같은 짧은 텍스트에 적합합니다. 일반적으로 슬라이드에는 산세리프 글꼴이 잘 어울리고 포스터나 인쇄물에는 세리프 글꼴이 적합합니다.
3.1.2 서체 선택의 원칙
가장 흔한 네 가지 서체는 Baskerville, Helvetica, Palatino, Times New Roman입니다. 제일 간단한 조언은 컴퓨터에 이 네 가지 서체를 설치하고 문서를 작성하라는 것입니다. 그렇게 하면 통일성을 가질 수 있으며 다른 컴퓨터에서 일관성있게 보여질 수 있을 것입니다. 물론 다양한 서체를 조합해 사용할 수 있지만 이는 세심한 주의와 기술을 요합니다.
3.1.3 간격 조정과 문서 구조화
타이포그래피는 문서의 분위기를 드러내고 텍스트의 구조와 의미를 명확히 할 수 있습니다. 또한 단어, 구문, 문장 및 텍스트 블록은 그들의 근본적인 의미에 따라 간격을 두어야 합니다. 단락 사이의 간격은 줄 사이의 간격보다 커야 하며, 목록 항목은 서로 관련되어 보이지만 인접 텍스트와는 분리되도록 간격을 두어야 합니다. 게슈탈트 원리에 따라 정렬되거나 서로 가까이 배치된 개체는 함께 속하는 것으로 인식됩니다.
의미 있는 간격을 가진 텍스트를 만들려면 ‘단락 앞 간격’ 및 ‘단락 뒤 간격’ 설정을 사용하세요. 이 설정은 글꼴 메뉴 > 단락
(파워포인트) 또는 서식 메뉴 > 단락
(워드)에서 찾을 수 있습니다. 예를 들어 단락 텍스트는 뒤에 5포인트 간격이 설정되고, 글머리 기호 목록은 뒤에 3포인트 간격이 설정될 수 있습니다. 또한 왼쪽 정렬된 텍스트는 들쭉날쭉한 오른쪽 가장자리를 남기는데 Shift + Enter
을 사용해 수동으로 줄을 끊으면 더 규칙적으로 만들 수 있습니다.
3.1.4 단순함과 통일성의 미덕
대부분의 문서는 하나의 서체를 사용하고 최대 두세 가지 글자 크기로 볼드체와 이탤릭체를 적절히 사용하면 완벽하게 작성할 수 있습니다. 이렇게 글꼴과 글꼴 처리의 변화를 제한함으로써 슬라이드나 포스터에 제시될 시각 정보의 구성을 통일할 수 있습니다. 통일된 타이포그래피 요소들이 문서를 더 읽기 쉽게 만듭니다.
3.1.5 축
데이터에 좌표 시스템이 있다면 그림의 축은 독자의 방향을 잡아주는 기반이자 핵심입니다.
- 축의 두께: 축의 두께는 적당해야 합니다. 0.5pt면 충분하며 그림이 특별히 크지 않다면 사방을 축으로 둘러싸는 것을 피해야 합니다.
- 화살표 사용 지양: 축에 화살표를 배치하는 것을 자제하세요. 축의 방향은 거의 의심할 여지가 없습니다.
- 다중 패널 그림의 스케일: 다중 패널 그림은 가능한 한 고정된 스케일을 유지해 비교하기 쉬워야 합니다.
3.1.6 눈금
눈금이 너무 빽빽하게 있으면 가독성이 떨어집니다.
3.1.7 그리드
그리드는 비율을 비교하고 위치를 축 눈금과 연관시키는 시선(sight lines)으로 사용됩니다. 궁극적으로는 잘못된 그리드보다 그리드가 없는 것이 나을 수도 있습니다. 그리드는 기본적으로 사용하기보다는 필요할 때만 사용하세요.
3.1.8 레이블
그림의 레이블은 하나의 고정된 크기를 사용하고, 게슈탈트 원리에 따라 하나의 그룹으로 정렬되야 합니다. 또한 레이블의 내용은 간결하지만 명확해야 합니다.
3.2 심볼: 명확하고 의미 있는 데이터 표현
데이터 포인트 심볼은 산점도(scatter plot)에서 시각적인 패턴과 변수 간의 관계를 파악하는 데 도움이 됩니다. 잘 선택된 심볼은 데이터 가려짐(occlusion)을 줄이고 다양한 데이터 범주의 시각적 독립성을 유지하는 데 도움이 됩니다.
3.2.1 단일 데이터 범주에서의 심볼
단일 데이터 범주를 가진 플롯에서는 겹치는 심볼로 인해 발생하는 데이터 가려짐을 최소화하는 것이 가장 중요합니다. 이 경우 속이 빈 원이 최선의 선택입니다. 다른 일반적인 기하학적 모양(사각형, 삼각형, 마름모 등)과 달리, 원은 다른 원과 교차되도 새로운 원을 만들지 않습니다. 그리고 속이 빈 형태의 장점은 겹치는 부분이 페이지에 더 밀도 높은 잉크 영역을 만들어 실용적인 밀도 맵을 대체할 수 있습니다.
3.2.2 다중 데이터 범주에서의 심볼
여러 데이터 범주는 강력한 시각적 경계를 형성하는 뚜렷한 심볼로 인코딩되어야 합니다. 모양이 유사한 심볼은 특히 심볼이 겹치는 영역에서 데이터를 식별하기 어려울 수 있습니다.
데이터 범주 간에 명확하고 간단한 구별하는 방법은 범주 이름의 첫 글자를 플로팅 심볼로 사용하는 것입니다. 이 방법은 글자가 시각적으로 뚜렷하다면(예: H, Q, X) 독자가 범례를 반복해 확인할 필요가 없어 해석을 더 쉽게 만듭니다.
사용 가능하다면 색상은 매우 효과적인 구분자입니다. 그러나 색조의 수가 증가함에 따라 그 중요성이 감소하므로 신중하게 사용해야 합니다. 데이터 범주에 대한 좋은 색상 선택은 정성적 브루어 팔레트에서 찾을 수 있습니다.
3.2.3 데이터 구조 반영
종종 데이터 포인트들은 계층 구조를 가집니다. 예를 들어 유전자의 상태(‘끔’ 또는 ‘켬’)에 따라 분류된 데이터는 구별하고 부각시키기 위해 시각적 비중(채움 및/또는 색상)을 가진 심볼을 사용하여 중요성을 나타낼 수 있습니다. 특히 관련성이 낮은 데이터(예: 맥락을 위해 포함된 참조 데이터)에는 덜 눈에 띄는 심볼을 사용하는 것이 좋습니다.
3.2.4 심볼 수가 많을 때의 대처
심볼의 수가 많으면 구별하기 어렵습니다. 플롯에 6-7개 이상의 범주가 있다면 스몰 멀티플(small multiples)을 사용해 여러 패널로 데이터를 제시하는 것을 고려하세요.
3.3 화살표
화살표는 가장 흔히 사용되는 그래픽 요소 중 하나입니다. 화살표는 복잡한 정보를 안내하는 매우 효율적인 시각적 의사소통 도구로 사용됩니다. 분자 생물학에서 화살표 관련 관례가 몇가지 있습니다. 예를 들어, 직각 선분과 함께 있는 화살표는 전사 시작 지점 또는 프로모터, 선과 평행하게 배치된 짧은 화살표는 일반적으로 PCR 프라이머를 나타냅니다.
3.3.1 화살표 사용 주의점
화살표는 요소 자체보다는 요소 간의 기능적 관계에 주의를 집중시키는 데 가장 효과적으로 사용됩니다. 따라서 방향이나 순서를 나타내는 데 화살표를 사용하고 시스템의 구조등의 공간적 상호 관계를 강조하려면 요소를 연결할때 화살표 대신 선을 사용해야 합니다. 한 가지 예외는 현미경 사진이나 기타 영상에서 두드러진 특징을 나타내는 데는 일반적으로 화살표를 사용합니다.
4 Nature methods blog에 이어서
5 차트 유형
데이터와 목적에 맞는 차트 유형을 선택하는 것이 중요합니다.
5.1 막대 그래프와 상자 그림
막대 그래프(Bar charts)와 상자 그림(Box plots)은 과학 문헌에서 매우 흔하게 사용되는 방법입니다. 특히 막대 그래프는 개수를 나타내는 데 적합하며, 상자 그림은 분포의 특성을 나타내는 데 적합합니다.
5.1.1 막대 그래프 활용
막대 그래프는 길이를 사용하여 양을 나타냅니다. 일반적으로 아래와 같은 몇 가지 옵션이 있습니다.
누적 막대 그래프(Stacked bar charts): 전체 양을 비교하면서 각 범주가 전체에 기여하는 바를 보여주고 싶을 때 가장 좋습니다. 흔히 여러 속성에서 순위를 시각화하는 데 사용됩니다.
계층형 막대 그래프(Layered bar chart): 전체 양의 분포보다는 각 범주 내 값의 분포를 모든 항목에 걸쳐 비교하는 데 주로 관심이 있을 때 적합합니다. 각 범주에 공통 기준선을 제공하므로 누적 막대 그래프보다 범주 내 비교에 더 정확합니다.
그룹화된 막대 그래프(Grouped bar chart): 각 항목 내에서 범주 간 값 비교를 가능하게 하면서 항목 간 비교도 가능하게 하는 것이 주 목표입니다. 각 항목의 양이 동일한 총합을 이룬다면 그룹화된 막대 그래프가 값을 더 정확하게 읽고 비교할 수 있습니다.
5.1.2 상자 그림
우리의 목표가 분포를 나타내고 비교하는 것이라면 막대 그래프보다 상자 그림이 더 좋은 선택입니다.상자 그림(Box plots), 또는 상자-수염 그림(box-and-whiskers plots)은 분포의 다섯 가지 특성을 위치와 길이로 인코딩하여 데이터를 효과적으로 요약합니다.
- 상자: 분포의 첫 번째 사분위수(Q1)부터 세 번째 사분위수(Q3)까지를 나타내며, 사분위 범위(IQR)를 표현합니다.
- 중앙선: 상자 내부의 선은 중앙값(median)을 나타냅니다.
- 수염(Whiskers): Q1과 Q3에서 뻗어 나오는 선으로 일반적으로 Q1 – 1.5 × IQR 및 Q3 + 1.5 × IQR 이내의 가장 극단적인 데이터 포인트를 끝점으로 정의합니다.
- 이상치(Outliers): 수염 바깥의 각 이상치는 개별적인 점으로 표시됩니다.
5.1.3 막대 그래프와 상자 그림을 위한 권장 사항
- 정렬: 암묵적인 항목 순서가 없는 한 막대는 높이 순서로 상자 그림은 중앙값 순서로 정렬해 쉽게 읽을 수 있도록 하세요.
- 기준선: 막대 그래프의 시작점은 0으로 하세요. 특별한 이유가 없다면 말이죠.
- 눈금 및 격자선: 데이터 해석 및 비교를 용이하게 하려면 눈금(tick marks)을 추가하고, 필요한 경우 축보다 얇은 격자선(grid lines)을 추가하여 작은 차이를 강조하세요.
- 색상: 상자와 막대는 단색으로 채우고 윤곽선은 생략하세요. 그리고 일반적으로 독자가 구별할 수 있는 최대 색상 수는 8~12개 입니다.
5.2 집합과 교집합
집합(Sets)은 과학 데이터 분석에서 보편적인 개념입니다. 예를 들어 토양 샘플에서 발견된 박테리아 종, 생화학 경로에서 발견된 효소, 게놈에서 발견된 변이체, 질량 분석법으로 혈청 샘플에서 검출된 단백질, 또는 암 환자 코호트에서 돌연변이된 유전자 등 이 모든 것을 집합으로 다룰 수 있습니다. 일부 연구의 목표는 흔히 여러 집합의 공통점과 차이점을 교집합을 통해 분석하는 작업이 이루어집니다.
집합과 그 교집합은 3~4개 정도까지는 시각화하기 쉽습니다. 그러나 집합의 수가 늘러나면 쉽지 않습니다. 예를 들어 3개의 집합은 8가지 가능한 교집합을 갖는 반면, \(n\)개의 집합에 대해 \(2^n\)가지 가능한 교집합이 존재하므로 10개의 집합은 1,024가지 가능한 교집합을 갖기 때문입니다.
5.2.1 오일러 다이어그램과 벤 다이어그램
집합의 교집합은 일반적으로 오일러 다이어그램(Euler diagrams) 또는 벤 다이어그램(Venn diagrams)을 사용해 시각화 합니다.
- 오일러 다이어그램: 교집합을 겹치는 모양(일반적으로 원이나 타원)으로 나타냅니다. 이 모양들은 종종 면적이 나타내는 요소의 수에 비례하도록 그려집니다.
- 벤 다이어그램: 오일러 다이어그램과 동일하지만 모든 가능한 교집합(비어 있는 교집합 포함)을 보여준다는 점에서 차이가 있습니다. 오일러 다이어그램에서는 비어 있는 교집합을 그리지 않습니다.
오일러 다이어그램은 2~3개의 교집합 크기를 나타내는 데 적합하며 만드는 도구는 EulerAPE를 추천합니다.
5.2.2 다수 집합 교집합 시각화
3개 이상의 집합에 대한 교집합을 효과적으로 시각화하려면 다른 접근법이 필요합니다.
- 이진 패턴 및 막대 사용: 모든 집합 교집합을 이진 패턴을 사용하여 행렬의 열에 인코딩하고 행렬 열 위에 막대를 렌더링하여 각 교집합의 요소 수를 나타내는 것입니다.
- 막대는 교집합 크기의 큰 변화를 수용하기 위해 로그 변환될 수 있으며 교집합 크기의 분포를 보여주기 위해 정렬될 수 있습니다.
- 목적에 따라 막대는 집합 조합별로 정렬하여 겹치는 집합의 수에 따라 교집합을 그룹화하거나 특정 집합의 모든 교집합을 서로 옆에 배치할 수도 있습니다.
- 많은 수의 집합을 그릴 때는 공간을 절약하기 위해 비어 있는 교집합을 제거할 수 있습니다. 이러한 시각화를 웹 브라우저에서 생성하는 도구에 upset가 있습니다.
- 클러스터링된 히트맵: 10개 이상의 집합의 모든 교집합을 클러스터링된 히트맵을 사용하여 모든 쌍별 교집합 크기를 그리는 것은 좋은 시각화 방법입니다.
- 집합 크기는 히트맵의 행이나 열을 따라 막대 그래프로 그려야 합니다.
- 다만 이 히트맵의 단점은 고차 교집합에 대한 정보가 숨겨진다는 것입니다.
교집합 수가 많아지는 경우 시각화할 때는 거의 항상 절충(trade-offs)이 필요합니다. 그러니 시각화에 따른 장단점을 이해하고 데이터 구조를 인식하는 것이 필수적입니다.
5.3 히트맵
히트맵은 2차원 숫자 데이터를 색상의 음영으로 표현하는 시각화 기법입니다. 생물학 분야에서 유전자 발현과 같은 대량의 다변량 데이터를 밀도 높고 직관적으로 보여주는 데 널리 사용됩니다. 수백 개의 행과 열을 한 화면에 표시할 수 있다는 장점이 있습니다. 히트맵은 기본적으로 색상 인코딩과 행 및 열의 의미 있는 재정렬에 의존합니다. 이 두 가지 요소 중 하나라도 제대로 적용되지 않으면 시각화의 유용성이 크게 떨어질 수 있습니다.
5.3.1 색상을 지정하는 문제와 해결책
숫자를 색상으로 나타내는 것은 오래된 아이디어이지만 색상은 상대적인 매체이므로 개별적인 값을 표현하는 데에는 신뢰성이 떨어질 수 있습니다. 같은 색상이라도 주변 셀의 색상에 따라 다르게 보일 수 있기 때문이죠. 따라서 우리가 ‘봐야 할 것’과 ’실제로 보는 것’ 사이의 불일치를 고려하여 효과적인 색상 맵을 설계해야 합니다.
히트맵은 일반적으로 다양한 값의 범위를 보여주므로, 해당 스펙트럼의 한쪽 또는 양쪽 끝을 강조하기 위한 적절한 색상 맵을 설계하는 것이 중요합니다.
- 발산형(Divergent) 색상 그라디언트: 낮은 값과 높은 값을 모두 강조할 때 좋습니다. 세 가지 색조(예: 파란색-흰색-빨간색)로 정의된 그라디언트는 범위의 양 끝을 시각적으로 명확하게 구분합니다.
- 단일 색조의 명도 변화 그라디언트: 한쪽 극단(가장 높거나 낮은 값)을 강조할 때 효과적입니다. 예를 들어 10%에서 90% 검정까지의 회색조는 선형적인 색상 변화를 잘 보여줍니다.
- 피해야 할 색상 조합: 빨간색-초록색 조합은 피해야 합니다. 색맹인 사람들이 어려움을 겪을 수 있기 때문입니다.
5.3.2 클러스터링의 중요성과 히트맵의 한계
적절한 색상 스케일과 함께 사용될 때 클러스터링은 히트맵에서 데이터의 구조를 파악하는 능력을 극적으로 향상시킬 수 있습니다. 행과 열이 유사성에 따라 재배열되면 패턴이 명확해집니다. 하지만 계층적 클러스터링은 몇 가지 시각화 문제를 야기합니다.
- 다양한 배열 가능성: \(n\)개의 행 또는 열이 클러스터 트리에 의해 연결될 때 \(2^{n-1}\)가지의 가능한 배열이 존재하므로 하나의 히트맵은 가능한 많은 결과 중 하나일 뿐입니다.
- 관계 정보의 가려짐: 클러스터링은 일반적으로 매트릭스 양쪽에 표시되는 클러스터 트리에서 유용한 관계 정보를 생성합니다. 하지만 선형 순서화는 클러스터 트리에 반영된 중요한 관계를 가릴 수 있습니다.
행과 열이 모두 클러스터링된 히트맵은 유사한 색상의 셀 블록을 생성하여 패턴을 쉽게 발견하게 합니다. 그러나 열에 내재된 순서가 있는 데이터(예: 시계열 또는 용량-반응 연구)를 히트맵으로 시각화할 때는 행에만 클러스터링이 적용됩니다. 이런 데이터에서는 한 행에 걸친 색상 시퀀스의 변동이 시간이나 농도와 어떻게 관련되는지 이해하는 것이 필요합니다. 이런 경우 평행 좌표 플롯(parallel coordinate plot)이 효과적인 대안이 될 수 있습니다.
- 정확한 값 읽기: 공간 인코딩에 의존하여 절대값을 더 정확하게 읽을 수 있습니다.
- 경향 이해 용이: 색상보다는 물결 모양의 프로파일 그래프로 복잡한 경향을 더 쉽게 이해할 수 있습니다.
- 불일치 강조: 샘플 간의 작은 불일치를 강조하는 데 특히 적합합니다.
주의할 점: 평행 좌표 플롯은 정보를 겹쳐서 보여주기 때문에 수십 개 이상의 프로파일을 그릴 경우 구별하기 어려울 수 있습니다.
5.4 시계열 데이터
시간은 연구에서 핵심적인 역할을 합니다. 왜냐하면 시간은 사건에 대한 자연스러운 순서를 제공하며 종종 주기적이고 반복적인 패턴을 보여주기 때문입니다. 일반적으로 시계열 데이터를 시각화하는 방법은 위치, 밝기 또는 채도, 그리고 애니메이션을 사용하는 것입니다.
5.5 서브플롯으로 복잡한 데이터 풀어내기
서브플롯은 요인 실험(Factorial experiments)은 독립 변수(예: 용량, 균주, 온도 또는 성별)의 다양한 조합이 반응 변수에 미치는 영향을 조사하는 데 자주 사용됩니다. 서브 플롯은 데이터를 작은 다중 그래프(small multiples)로 구성하는 방법이며 각 그래프는 서로 다른 범위에 맞게 잘리고 조정되어 상대적인 변화를 강조하면서도 전체 데이터 범위의 맥락을 보존하여 절대적인 변화를 보여줍니다. 이런 전략은 비선형 스케일링(예: 로그, 프로빗, 로짓 또는 역수)과 함께 사용하여 동적 범위와 해상도를 높이고, 가우시안 및 S자형 데이터를 선형화할 수 있습니다.
5.5.1 최소값과 최대값이 다른 데이터 다루기
데이터 범주가 최소값과 최대값 모두에서 다를 때 단일 플롯은 패턴을 모호하게 만들 수 있습니다. 서브 플롯은 관심 있는 패턴과 측정 지표를 강조하기 위해 다양한 방식으로 개별적으로 스케일링될 수 있습니다.
- 종횡비의 중요성: 플롯의 종횡비(aspect ratio) 선택은 기울기가 어떻게 인지되고 비교되는지에 영향을 미칩니다. 평균 트레이스가 45도를 향하도록 종횡비를 선택하는 것이 유용합니다.
- 전체 및 잘린 범위 쌍: 전체 및 잘린 범위를 보여주는 작은 다중 그래프 쌍은 절대값의 차이를 강조하고, 각 범주의 범위에 걸친 패턴과 상관관계를 보여줍니다.
5.6 경로 다이어그램
경로 다이어그램은 생물학적 시스템에서 연결성과 정보의 흐름을 설명합니다. 세포 신호 전달 경로에서부터 전 지구적 생태계 네트워크에 이르기까지 놀랍도록 유사한 표현 방식으로 모든 것을 묘사할 수 있습니다.
5.6.1 시각적 그룹핑과 정렬로 정보 흐름 강조
시각적 그룹핑을 사용하여 경로 레이아웃에서 정보 흐름의 계층 구조를 만들고 명확한 정렬을 통해 노드 관계를 강조할 수 있습니다.
- 엣지 디자인: 엣지는 노드 모양의 고정된 수의 점에 연결되어야 합니다. 불필요한 스타일링이나 화살표의 늘림을 피하고, 기본적인 화살촉을 사용해야 합니다. 엣지 각도는 30° 또는 45°의 배수로 제한해야 하며, 곡선 엣지는 원형 가이드를 사용하여 쉽게 그릴 수 있습니다. 엣지에는 0.5pt 선을 사용하고, 변의 길이가 2.5pt인 정삼각형 화살촉을 사용하는 것이 좋습니다.
- 정보 흐름 방향: 일반적으로 정보는 왼쪽에서 오른쪽으로, 위에서 아래로 흐를 것으로 예상됩니다. 이 표준에서 벗어나거나 레이아웃에 비대칭을 도입하는 것은 차이점을 강조할 수 있지만, 독자의 이해를 돕는 경우에만 드물게 사용해야 합니다. 상류 노드로 되돌아가는 엣지는 시계 방향으로 흐르도록 해야 합니다.
- 그리드 정렬: 노드를 그리드에 배치하면 그림 전체에 걸쳐 시선의 움직임을 돕습니다. 노드의 수평 정렬은 경로를 통한 정보의 흐름을 강조하는 반면, 방사형 정렬은 원천 노드를 강조합니다. 엣지 교차나 화살촉 충돌을 피하기 위해 그리드 패턴에서 국소적인 벗어남이 필요할 수 있습니다.
5.6.2 연결성 및 포함으로 관계 표현
경로 구성 요소 간의 강한 관계는 연결(connection)과 포함(enclosure)을 사용하여 설명할 수 있습니다.
- 연결: 엣지는 연결을 통해 노드를 그룹화하는 역할을 합니다.
- 포함: 핵과 같이 공유 구획 내에서 노드를 그룹화하는 데 사용할 수 있습니다.
5.6.3 유사성 및 근접성으로 그룹핑 강화
노드를 유사성(예: 색상 또는 모양)이나 근접성(proximity)을 통해 연결하면 연결 및 포함으로 생성된 그룹핑을 방해하지 않고 경로의 특정 부분을 강조할 수 있습니다.
- 유사성 그룹: 효과적인 유사성 그룹을 만들려면 노드를 강조하는 데 사용되는 경우를 제외하고는 노드 색상이나 모양의 불필요한 변화를 피해야 합니다.
- 근접성 그룹: 네거티브 공간(negative space), 즉 그룹 주위의 그리드에 빈 행이나 열을 사용하여 시각적 강조를 추가함으로써 근접성 그룹핑을 달성할 수 있습니다.
- 차이점 식별: 특정 단백질 클래스와 관련된 레이블이나 모호하지 않은 모양으로 차이점을 식별할 수 있습니다. 예를 들어, GPCR의 7개 막 관통 도메인과 녹색 복합체로서 G 단백질을 보여줄 수 있습니다.
경로 다이어그램에서 그룹핑을 사용하면 대체 시각적 진입점을 제공할 수 있습니다. 복잡한 경로에서는 가능한 모든 경로를 처음부터 끝까지 따라가기가 어려울 수 있습니다. 중요한 노드 하위 유형을 쉽게 식별할 수 있다면, 경로 다이어그램을 엄격하게 순차적으로가 아니라 여러 방향에서 탐색할 수 있습니다.
5.6.4 노드 레이블링의 어려움과 해결책
노드에 레이블을 추가하는 것은 종종 어려운 일입니다. 유전자 및 단백질 복합체의 이름이 길 수 있지만, 레이블에 맞게 노드 모양을 변경하면 그룹핑 효과가 희석됩니다.
- 레이블 길이 고려: 가장 긴 레이블을 수용할 수 있는 노드 모양을 선택하거나 이름을 약어로 사용하는 것이 좋습니다.
- 색상 및 스타일: 텍스트와의 대비 손실을 피하기 위해 노드 색상은 채도를 낮게 유지하고, 그라데이션이나 그림자와 같은 시각적 장식은 피해야 합니다.
6 명확한 데이터 시각화를 하는 방법
6.1 단순화하기
정보의 명확성을 높이는 핵심 전략입니다.
6.1.1 요소 수 줄이기
’표시’를 최소화하라
단순화하는 가장 좋은 방법은 페이지의 요소 수를 줄이는 것입니다. 모든 그림과 텍스트 조각은 시각적 감각을 자극하고 프레젠테이션의 복잡성에 기여합니다. 목표는 세련됨을 희생하지 않으면서 메시지를 전달하기 위해 가능한 한 가장 적은 수의 ’표시(marks)’를 사용하는 것입니다. 우리의 일반적인 경향은 여백을 더 많은 정보로 채우는 것입니다. 따라서 재료를 신중하게 제거하는 것은 일반적으로 저작 과정의 자연스러운 부분이 아닙니다. 하지만 더 적게 포함함으로써 잃는 기회는 보여지는 것에 대한 더 큰 강조로 얻어집니다.
저는 그림이나 슬라이드의 주요 목표에 집중하는 것이 구성 요소를 줄이는 지침이 된다고 생각합니다. 이 기준에 따라 모든 구성 요소를 평가하여 정보의 계층 구조를 만들고, 불필요한 요소를 제거하며, 메시지를 지원하기 위해 나머지를 다듬습니다. 예를 들어, 두 개의 융합 유전자를 생성하는 역위 이벤트를 나타낼 때, 불필요하게 복잡한 초기 과정을 단순화할 수 있습니다. 과정의 처음 두 단계를 결합하고 이동을 나타내는 화살표 수를 줄임으로써 디자인을 단순화하고 전달력을 효과적으로 향상시킬 수 있습니다.
단순화함으로써 우리는 사람들이 정보를 보고 처리하는 방식을 활용하는 것입니다. 잘 정돈된 레이아웃과 깔끔한 선을 가진 단순화된 프레젠테이션은 읽는 데 더 매력적이고 더 잘 이해될 가능성이 높습니다.
6.1.2 불필요한 요소 제거
중복 피하기
중복되는 요소를 제거하는 것은 프레젠테이션에서 추가적인 내용을 덜어내는 또 다른 방법입니다. 예를 들어, ‘반응 1’, ’반응 2’와 같이 시리즈를 나타내는 그림 레이블에서 반복을 흔히 볼 수 있습니다. 이런 경우, 레이블 간의 공통 단어를 추출하여 헤더로 사용하면 일반적으로 외관을 깔끔하게 정리할 수 있습니다. 또한, 저자들은 기본적인 다양성을 포착하기 위해 다양한 실험 구성 요소를 보여주는 경우가 있습니다. 그러나 필요 이상의 예시를 포함하면 오히려 독자를 혼란스럽게 할 수 있습니다.
6.1.3 질서정연하게 배치
단순성은 남은 요소를 체계적으로 구성함으로써도 달성할 수 있습니다. 그룹화를 통해 많은 독립적인 부분으로 이루어진 시스템이 더 적은 수의 요소로 보이게 할 수 있습니다.
구조 생성: 무엇을 무엇과 함께 배치할지 결정하는 것이 구조를 만드는 첫 단계입니다. 한 단계에서 다음 단계로의 동작이나 변형을 설명하는 레이블은 진행 화살표와 함께 배치되어야 합니다. 개체 설명은 이미지 옆에 배치되어야 합니다.
깔끔한 레이아웃: 또한, 깔끔하고 질서정연한 레이아웃은 더 단순하게 보입니다. 그룹화 외에도, 프레젠테이션에 적합한 몇 개의 가상의 수평선과 수직선에 요소를 정렬하고, 여백(negative space)에 주의를 기울여 그룹 간에 명확한 경계를 만드세요.
6.2 효과적인 시각화를 위한 데이터 시각화 원칙
1967년 프랑스 지도 제작자 자크 베르탕(Jacques Bertin)은 정보 시각화를 위한 광범위한 이론적 틀을 제공했습니다. 그의 분석은 양적 변화를 표시하기 위한 모양, 방향, 색상, 질감, 부피, 크기와 같은 그래픽 요소의 시각적 속성에 초점을 맞췄습니다. 그는 그래프에 저장된 정보를 추출하는 데 필요한 여러 시각적 작업을 정의했습니다.
6.2.1 패턴과 추세 인지
테이블과 그래프의 차이
그래프는 독자가 패턴과 추세를 인지하도록 하는 것이 목표입니다. 이는 정확한 이름과 숫자를 보고하는 테이블을 통해 정보를 전달하는 것과는 다릅니다.
6.2.2 그래프 유형별 시각적 평가와 효율성
다양한 그래프 유형은 기본 추세를 파악하기 위해 다른 시각적 평가에 의존합니다. 파이 차트는 전체의 부분을 보여주는 일반적인 방법입니다. 대부분의 독자는 파이 차트에서 정보를 추출할 때 각도를 판단할 가능성이 높지만, 조각의 면적과 호 길이를 비교할 수도 있습니다. 이러한 각 지각 작업은 효율성과 정확성 면에서 낮은 순위를 차지합니다. 동일한 데이터를 막대 차트로 그리면 상대적인 값을 효과적으로 보여줍니다.
6.3 시각적 두드러짐(Salience): 그래프 가독성 향상과 정보 인코딩
시각적 두드러짐은 객체를 주변 환경과 차별화시키는 시각적 특성입니다. 그 의도는 대비(contrast)를 만드는 것입니다. 예를 들면 서로 직각을 이루는 두 선은 쉽게 보이지만, 유사한 객체들 사이에서 단일 비스듬한 선을 찾는 데는 더 오랜 시간이 걸립니다.
6.3.1 정보가 즉시 인식되어야 하는 이유
정보를 즉시 인식할 수 있도록 제시해야 하는 몇 가지 이유가 있습니다.
- 인지 부하 감소: 첫째, 청중이 관련 패턴과 추세를 파악하는 데 걸리는 시간을 줄임으로써 인지 부하를 낮춥니다. 이는 시각 및 청각 정보가 일반적으로 주의를 놓고 경쟁하는 슬라이드 및 포스터 기반 프레젠테이션에서 특히 유용합니다.
- 추가 시각 정보 처리: 둘째, 청중이 데이터의 특정 특징을 빠르게 볼 수 있도록 돕는 것은 시각 피질이 동시에 추가적인 시각 특징을 이해하도록 합니다.
디자인 원칙은 상당히 간단합니다. 무언가를 쉽게 찾으려면, 그 객체의 주요 시각적 특징을 변화시켜 돋보이게 만드세요. 예를 들어, 객체에 페이지의 다른 객체와 크게 다른 색상, 크기 또는 방향을 부여하세요. 움직임(Motion)은 특히 강력한 차별화 요소입니다. 애니메이션 GIF나 튀어 오르는 아이콘이 우리의 주의를 사로잡는 능력을 생각해 보세요. 이러한 이유로, 애니메이션화되는 객체의 중요성에 비례하여 움직임 사용을 조절해야 합니다.
6.3.2 복잡한 디자인 문제
비경쟁적 시각적 특징 활용
디자인 문제는 복잡합니다. 일반적으로 여러 매개변수를 동시에 쉽게 검색할 수 있기를 원합니다. 해결책은 경쟁하지 않는 시각적 특징을 사용하는 것입니다. 그러나 시각적 결합 검색(즉, 두 개 이상의 시각적 특징을 기반으로 대상을 찾는 것)은 집중력을 요구하며 패턴 구성을 위해 그러한 객체들을 기억 속에 유지하기 어려울 수 있으므로 얼마나 많은 특징을 서로 겹칠 수 있는지에는 한계가 있습니다.
시각적 두드러짐을 생성하는 것은 청중이 정보를 빠르게 처리하는 능력을 향상시킬 것입니다. 이는 강연이나 여러 통신 채널이 동시에 사용될 때 특히 유용합니다. 또한, 대비가 생성되는 다양한 방식을 아는 것은 의도치 않은 사용을 피하는 데 도움이 됩니다.
7 다차원 데이터 시각화
7.1 3차원 시각화
공간 데이터에 효과적이지만, 다른 데이터 유형에는 거의 그렇지 않습니다.
고차원 데이터를 다룰 때, 추가적인 데이터 차원을 사용할 수 있다는 이유로 2차원(2D) ‘평면’ 표현보다 3차원(3D) 공간 시각화를 선택하고 싶은 유혹을 느낄 수 있습니다. 그러나 정량적, 범주형 및 관계형 데이터는 종종 공간 관계를 나타내지 않으므로, 이를 3D 공간에 그리면 시각적 복잡성이 추가되어 데이터 이해를 더 어렵게 만드는 경우가 많습니다. 따라서 이러한 데이터를 2D 평면에 그리고 비공간적 그래픽 인코딩에 의존하여 추가 차원을 나타내는 것이 더 효과적일 수 있습니다.
7.2 3차원 시각화이 필요한 경우
특정 유형의 데이터에는 3D 공간 시각화가 최선의 선택입니다. 예를 들어, X선 결정학 데이터는 분자 내 원자의 위치를 설명하므로 본질적으로 공간적인 것을 특징짓습니다. 이러한 원자의 3D 공간 구성을 시각화함으로써 분자 구조를 드러낼 수 있습니다. 공간 데이터는 측정값의 3D 위치 정보를 반영하는 시각적 표현에 적합합니다. 이는 종종 데이터 해석에 결정적인 역할을 합니다.
객체의 2차원 투영은 깊이를 나타내는 시각적 단서를 사용하여 3차원을 표현합니다. 깊이를 나타내는 가장 강력한 시각적 단서는 부분 가려짐(partial occlusion)으로 한 객체가 다른 객체의 일부를 가리는 것입니다. 또 다른 깊이 단서는 평행선이 수렴하여 만들어지는 원근감(perspective)으로 특정 시점에서 객체까지의 거리를 추정할 수 있게 합니다. 이러한 깊이 단서는 2D 디스플레이에서 3D 객체를 묘사하는 데 필수적입니다.
7.2.1 3차원 시각화의 단점
예를 들어, 객체의 높이나 길이가 원근감에 의해 왜곡될 수 있어, 플롯 내 요소의 스케일을 판단하기 어렵게 만듭니다. 피할 수 없이, 전경의 데이터 객체는 시청자로부터 더 멀리 떨어진 요소의 가시성을 방해할 것입니다. 또한, 색상이 양을 나타내는 데 사용될 때, 컴퓨터 소프트웨어로 묘사되는 객체에 드리워지는 음영이나 그림자는 추가적인 모호성을 유발할 수 있습니다.
7.2.2 2차원과 3차원시각화를 선택하는 방법
평면 표현과 공간 표현 사이의 선택은 시각적 인코딩과 깊이 단서 사이의 간섭이 시각화 목표를 고려할 때 허용 가능한 절충안을 구성하는지에 달려야 합니다. 유전자 발현 또는 생물학적 네트워크와 같이 추상적인 데이터는 일반적으로 3D 공간 표현으로부터 이점을 얻지 못하며, 깊이 단서를 필요로 하지 않는 기술을 사용하여 그릴 때 가장 유용합니다.
대부분의 경우, 고차원 데이터는 요소를 2D 평면에 배치하고 크기나 색상을 사용하여 데이터의 추가 차원을 인코딩하는 표현으로 안정적이고 효율적으로 시각화할 수 있습니다. 데이터 차원 중 하나가 범주형이고 범주가 몇 개에 불과하다면 모양을 사용하여 범주를 인코딩할 수 있습니다. 평면에 다차원 데이터를 효과적으로 표현할 수 있는 많은 일반적인 데이터 시각화 접근 방식이 있습니다. 예를 들어, 고차원 데이터 세트에서 변수의 쌍별 조합을 각각 보여주는 산점도 행렬은 상관 관계를 효과적으로 드러낼 수 있습니다. 유사하게, 히트맵과 평행 좌표 플롯은 평면에 다차원 데이터를 그리는 데 유용한 기술입니다. 일부 정보 손실이 허용된다면 주성분 분석 또는 다차원 척도화와 같은 차원 축소 방법을 사용하여 고차원 데이터 세트의 2D 표현을 얻을 수 있습니다.
7.3 2차원 시각화로 다변량 데이터 시각화
고차원 데이터는 분석 및 표현에 있어 상당한 어려움을 제기합니다. 평행 좌표 플롯이나 산점도 행렬과 같은 데이터 시각화 방법은 고차원 데이터를 위한 매우 유용한 2D 시각화 기술입니다. 이들은 평면상의 위치를 사용하여 데이터를 나타내며 각각 데이터의 다른 측면을 강조하는 고유한 강점을 가집니다. 많은 데이터 분석 작업은 클러스터, 추세 및 이상치를 찾는 것을 포함하며 잘 선택되고 잘 설계된 2D 플롯은 데이터의 패턴을 드러내는 데 매우 유리할 수 있습니다.
7.3.1 평행 좌표 플롯 (Parallel Coordinate Plots)
근본적인 2D 플로팅 기술 중 하나는 평행 좌표를 사용하는 것입니다. 이 플롯의 특징적인 외관은 고유한 좌표계에서 비롯됩니다. 좌표는 서로 직교하지 않고 평행합니다. 각 수직 축은 최소값과 최대값 사이에서 스케일링된 데이터 값을 가진 다른 차원을 나타냅니다. 동일한 행에 속하는 데이터 포인트는 선분으로 연결되어 개별 데이터 특징이 전체 데이터 세트의 맥락에서 보여지도록 합니다.
평행 좌표는 다양한 데이터 유형을 동시에 처리할 수 있습니다. 예를 들어, 유전자 발현 데이터 및 시간 또는 여러 조건에 걸친 다른 정량적 다변량 데이터는 종종 각 차원이 동일한 유형이고 모든 축이 동일한 범위로 스케일링되는 특수한 형태의 평행 좌표 플롯을 사용하여 시각화됩니다. 이 접근 방식은 차원 간의 정확한 비교를 가능하게 합니다. 또한, 이러한 유형의 플롯은 범주형, 순서형 또는 정량적 차원을 포함하는 데이터 세트도 나타낼 수 있습니다.
강력한 그래픽 인코딩에 의존함으로써 평행 좌표 플롯은 특정 데이터 관계를 명확하게 보여줍니다. 예를 들어, 한 쌍의 축 사이에 많은 교차선이 나타나는 것은 해당 차원 간의 역관계(inverse relationship)를 나타내는 반면, 평행(또는 거의 평행)한 선은 인접 축으로 표현된 변수 간의 상관관계(correlation)를 시사할 수 있습니다. 이러한 유형의 특징은 평행 좌표 플롯에서 쉽게 볼 수 있습니다. 그러나 이 플롯은 범주형 정보가 지배적인 데이터나 적은 수의 값만을 통과하는 데이터 범위에는 적합하지 않습니다. 데이터 가려짐이 문제가 될 수 있기 때문입니다.
평행 좌표를 사용할 때는 축 높이와 축 사이의 거리를 조정하여 모든 각도의 절대값 평균이 45도에 가깝도록 해야 합니다. 전체 플롯의 종횡비는 축 사이에 선분이 나타나는 각도에 영향을 미칩니다. 평행 좌표 플롯을 적절하게 형성하면 시청자의 축 방향 인식이 향상되고 선 교차를 더 쉽게 발견할 수 있어 개별 프로파일을 추적하는 데 유용합니다.
7.3.2 산점도 행렬 (Scatter Plot Matrices)
산점도 행렬은 다변량 데이터를 위한 또 다른 일반적인 평면 시각화 방법입니다. 이 플로팅 기술에서는 모든 쌍별 조합을 나타내는 산점도 그리드를 사용하여 데이터 세트의 모든 차원 간의 쌍별 관계를 쉽게 탐색할 수 있습니다.
7.3.3 평행 좌표 플롯 vs. 산점도 행렬
평행 좌표 플롯과 산점도 행렬 중 어떤 것을 선택할지는 지원할 분석 작업에 따라 달라집니다. 이 두 접근 방식의 근본적인 차이점은 여러 차원에 걸쳐 개별 데이터 특징을 표현하는 방식입니다.
- 평행 좌표 플롯: 데이터 포인트가 단일 선 또는 프로파일로 묘사됩니다. 함께 나타나는 ’선 묶음’은 클러스터를 나타내고, 이상치도 명확하게 드러납니다.
- 산점도 행렬: 데이터 특징이 산점도 간에 연결되지 않은 일련의 점으로 표현되므로, 개별 데이터 특징에 대한 결론을 도출하기 어렵습니다. 그러나 산점도 행렬은 점 구름의 특징적인 모양을 기반으로 전체 데이터 세트의 모든 차원 간의 쌍별 상관관계 및 기타 관계를 효율적으로 식별하는 데 사용할 수 있습니다.
7.3.4 시각화 방법의 시너지 효과
이러한 방법들은 서로 상호 보완적이며 동일한 데이터 세트에 대한 여러 조정된 시각화를 사용할 수 있는 대화형 환경에서 가장 좋은 결과를 제공합니다. 히트맵 및 차원 축소 도구와 함께 기본적인 2D 시각화 방법은 다변량 데이터에 대한 강력한 접근 방식이 될 수 있습니다.
8 데이터 탐색하기
8.1 연필과 종이: 사고와 가설 생성에 도움이 되는 독특한 도구
그림을 그리는 것은 과학적 사고에 필수적입니다. 시각화 과정에서 연필로 종이에 그리는 행위는 내면의 성찰과 외면의 표현에 없어서는 안 될 부분입니다. 이는 우리의 사고를 구체적이고 명시적으로 만드는 건설적인 활동입니다.
8.1.1 시각적 표현의 구체성
사고의 명확화
단어는 그림에서는 허용되지 않는 모호성을 부여합니다. 예를 들어, 단백질을 세포 내에 있다고 일반적인 용어로 구두로 설명할 수 있지만, 세포 내 단백질 그림을 그리면 단백질이 존재하는 세포 구획에 대해 구체적으로 생각하게 됩니다. 세포를 가장 일반적인 형태로 묘사하더라도, 단백질의 위치를 나타내려면 단백질을 세포질에, 핵 안에, 또는 그 사이 어딘가에 배치해야 합니다. 세포 내 모든 위치가 ’세포 내’라는 원래 매개변수를 준수하더라도, 그림의 해석은 더 직접적입니다. 즉, 단백질은 세포질성, 핵성 또는 핵막과 관련되어 있는 것으로 이해될 것입니다.
시각적 묘사는 우리가 이해의 전제를 끊임없이 평가하도록 요구합니다. 정보를 합리화하는 방법으로 빠른 스케치나 낙서를 하는 것은 우리의 사고에서 간극을 드러내고 대안적인 결론과 새로운 아이디어로 이어질 수 있습니다. 탐구적인 그리기를 할 때는 시각적 정확성을 다소 포기하는 것이 유용합니다. 우리는 묘사하는 객체가 실제 객체처럼 보이기를 기대하는 경향이 있습니다. 이러한 기술적 숙련도에 대한 기대는 많은 성인들이 그림 그리기를 연습으로 포기하는 이유일 것입니다. 그림을 그릴 때는 많은 가능성을 탐색하기 위해 스케치를 빠르게 다듬는 것이 생산적입니다.
8.1.2 연필과 종이의 즉각성과 유연성
연필과 종이는 타의 추종을 불허하는 즉각성을 제공합니다. 이 매체를 사용하면 손이 닿는 곳에 있는 모든 것을 활용할 수 있습니다. 예를 들어, 저널 뒷면, 포스트잇, 또는 점심 식사 후의 냅킨이 될 수 있습니다. 그래픽 생성용 소프트웨어와는 달리 연필과 종이에는 학습 곡선이 없습니다. 컴퓨터의 일반적인 입력 장치(키보드와 마우스)는 정신을 몰입시키는 데 필요한 표현력과 유동성을 지원하기에 심각하게 부적절합니다. 디지털 매체의 실용적인 측면은 종종 인지 과정을 방해하는데 이는 우리가 자주 멈춰서 ‘어떻게’ 해야 할지 생각해야 하기 때문입니다.
8.1.3 그리기의 인지적 이점
기억력 확장 및 통찰력 확보
그림 그리기 과정은 사고 과정과 연결되어 있으며 정신 모델을 생성하는 것은 과학 데이터에 대한 통찰력을 얻는 데 도움이 됩니다. 예를 들어, 우리의 지식을 유형의 형태로 외현화함으로써 우리는 동료들과 해석을 교환하고 의미를 명확히 할 기회를 만듭니다. 교육 환경에서 그림 그리기는 학동들의 과학 개념 이해를 향상시키는 것으로 나타났습니다. 학생들이 수업 자료의 시각적 표현을 생성하고, 정당화하며, 다듬도록 유도된 후 현저히 더 나은 성과를 보였습니다.
그림 그리기 기능 중 하나는 우리의 단기 작업 기억(short working memory)을 확장하는 것입니다. 시각적 작업 기억은 특정 작업을 수행하기 위해 시각 정보를 유지하는 우리의 능력을 설명합니다(예: 지도를 읽는 것). 우리는 몇 초 이상 몇 개 이상의 객체 속성을 기억하기 어렵습니다. 노드(행과 열로 배열됨) 간의 연결이 채워진 셀로 표시된 간단한 네트워크를 설명하는 표를 통해 연결을 연속적으로 읽고 기억에 저장하여 기본 네트워크의 정신적 그림을 만드는 것은 쉽지 않습니다. 동일한 정보를 다이어그램으로 묘사함으로써, 우리는 작업 기억의 한계를 극복하고 어떤 노드 쌍 사이의 개입하는 노드 수와 같은 복잡한 관계를 쉽게 볼 수 있습니다.
8.2 그래픽으로 데이터 보기의 중요성
그래픽으로 데이터를 보는 것은 계산된 지표에만 의존하는 것보다 훨씬 중요합니다. 앤스콤의 콰르텟은 동일한 요약 통계를 갖는 데이터 세트라도 시각화하면 크게 다름을 보여줍니다. 고차원 데이터에서 ’행동 클래스’를 찾기 위해 저차원 ’슬라이스’를 만들어 시각화하는 것이 유용하며 이때 플롯 간의 일관성 유지가 중요합니다.
8.3 스택 그래프 vs. 개별 플롯: 패턴 발견의 차이
스택 그래프는 전체 커뮤니티의 동적 변화를 보여주지만 각 구성 요소의 상세한 추세를 파악하기는 어렵습니다. 반면, 개별 플롯은 각 개체군의 행동을 명확하게 드러내 더 많은 패턴을 발견할 수 있게 합니다. 너무 많은 데이터를 한 번에 표시하는 것은 시각적 부담을 주므로, 데이터 일부를 제외하거나 샘플링하여 복잡성을 줄여야 합니다.
8.4 네트워크 탐색을 위한 그래프 기법
복잡한 생물학적 상호작용은 네트워크로 표현될 때 유용하며, 목적에 맞는 시각화 기법을 선택하면 의미 있는 통찰력을 얻을 수 있습니다. 네트워크 시각화는 허브(연결이 많은 노드)와 클러스터(고도로 상호 연결된 노드 집합) 같은 특징을 부각시킵니다.
8.4.1 노드-링크 다이어그램
노드-링크 다이어그램은 네트워크의 지역적 세부 사항을 잘 보여주며 노드와 연결을 시각화합니다. 다양한 레이아웃은 데이터 관계 인지에 큰 영향을 줄 수 있습니다. 하지만 이 다이어그램은 데이터 세트가 커질수록 복잡해져 확장성이 떨어집니다.
8.4.2 인접 행렬
큰 무방향성 네트워크에는 인접 행렬이 효과적입니다. 노드를 행과 열로 표시하여 연결성을 보여주므로, 노드-링크 다이어그램의 문제점을 피할 수 있습니다. 노드 순서를 재정렬하면 클러스터와 허브를 더 쉽게 파악할 수 있지만, 직접 연결되지 않은 노드 간의 관계를 파악하기는 어렵습니다.
8.4.3 큰 규모 네트워크 시각화의 한계와 대안
네트워크가 너무 크면 노드-링크 다이어그램이나 인접 행렬 모두 부적절할 수 있습니다. 이때는 부분 네트워크를 시각화하거나 클러스터링 계수 같은 통계 측정에 의존하는 것이 유용합니다.
8.5 데이터 통합: 다양한 분석 작업을 위한 시각적 표현
다른 데이터 유형은 고유한 시각화 기법에 가장 적합합니다. 여러 데이터 유형을 결합한 시각화는 데이터 간의 상관관계, 공통 추세, 잠재적 인과 관계를 발견하는 데 도움이 됩니다.
8.5.1 결합된 시각화 디자인
결합된 시각화 디자인은 분석 작업에 따라 달라집니다. 예를 들어, 유전자 발현 데이터와 상호작용 네트워크를 결합할 때 ’히트 스트립’을 사용하면 특정 발현 프로파일을 가진 노드를 빠르게 찾을 수 있습니다.
8.5.2 다수 시간 지점 데이터 처리
많은 시간 지점 데이터를 다룰 때는 노드의 발현 수준을 색상으로 나타내고 대화형으로 진행하거나, 각 시간 지점을 나타내는 ’작은 다중 그래프’로 네트워크를 배열하여 복잡한 패턴을 한눈에 파악하도록 도울 수 있습니다.
8.5.3 통합 도구의 중요성
다양한 그래프 기법을 통합하는 도구는 데이터 탐색에 매우 유용합니다. Cytoscape 플러그인인 Cerebral처럼 여러 시각화 뷰를 제공하는 도구는 데이터 해석을 심화시킵니다.
8.6 게놈 데이터 시각화: 선형 게놈의 시각적 표현 선택
게놈 데이터는 게놈 좌표를 기반으로 표시되지만, 게놈의 거대한 크기는 시각화에 도전 과제를 제기합니다. 전통적인 선형 게놈 브라우저는 한계가 있어 다른 조직 프레임워크를 사용해야 합니다.
8.6.1 게놈 데이터 개요 생성 및 문제점
게놈을 동일한 크기로 나누어 요약 값을 보고하는 방식은 특징이 작을 때 중요한 정보를 가릴 수 있습니다. 게놈 브라우저의 확대/축소 기능은 다양한 규모로 게놈을 검사할 수 있도록 하여 이 문제를 해결합니다.
8.6.2 의미 있는 개요를 위한 접근 방식
관심 있는 특징만 분리하거나 게놈 중간 부분을 제거하여 관련 신호를 함께 모으는 것이 의미 있는 개요를 만드는 방법입니다. 공간 채움 곡선과 같이 게놈을 압축하여 표시하는 방법도 있지만, 왜곡이 발생할 수 있습니다. 경우에 따라 게놈 순서를 포기하고 전사 시작 부위와 같은 공통 참조 지점을 기준으로 데이터를 정렬하는 것이 더 유용할 수 있습니다.
8.6.3 게놈의 3차원적 특징과 미래 시각화
게놈의 3차원적 접힘 구조를 이해하게 되면 게놈 데이터를 조직하고 접근하는 방식도 바뀔 것입니다. 이는 선형 좌표 대신 기능적 상태에 따라 데이터를 그룹화하는 시각화를 가능하게 할 것입니다.
8.7 게놈 브라우저를 통한 대량 데이터 관리: 증가하는 데이터 트랙 처리
게놈 데이터는 종류와 양이 방대하며, 게놈 브라우저는 이를 효과적으로 시각화하는 데 중요합니다. 게놈 브라우저는 트랙을 수직으로 배열하여 비교를 용이하게 하지만, 트랙 수가 늘어나면 시각적 복잡성이 증가합니다.
8.7.1 시각적 복잡성 줄이는 전략: 압축과 요약
시각적 복잡성을 줄이기 위해 압축과 요약 전략을 사용할 수 있습니다. 압축은 데이터를 간결하게 표현하여 화면 공간을 확보하고, 여러 트랙을 합치거나 히트맵으로 봉우리 높이를 표현할 수 있습니다. 요약은 데이터 세부 사항을 희생하여 더 높은 수준의 추론을 제공하며, 실험 전반의 지표를 계산하여 데이터의 새로운 표현을 만듭니다.
8.7.2 요약의 장점과 과제
요약은 연구자들이 전역적인 추세에 집중하고 더 깊은 조사를 위한 지점을 우선순위화하는 데 도움을 줍니다. 하지만 추상화된 요약이 기본 데이터를 완전히 대체하지는 않으므로, 게놈 브라우저는 요약 트랙과 세부 트랙의 계층 구조를 지원해야 합니다.
8.8 게놈 구조 변이 표현: 멀리 떨어진 게놈 위치 간 관계 표시
게놈 구조 변이는 전통적인 게놈 시각화에 새로운 도전을 제기합니다. 구조 변이의 시퀀스 경계는 넓은 범위에 걸쳐 있으며, 그 크기와 방향이 다양합니다.
8.8.1 구조 변이 묘사를 위한 시각화 기법
구조 변이를 묘사하기 위해 브레이크포인트 사이에 호(arc)를 그리는 방식이 있으나, 많은 호를 표시하면 시각적 혼란이 발생합니다. 원형 레이아웃인 Circos 이데오그램은 호를 압축하지만, 중첩에 취약합니다. 도트 플롯은 두 게놈의 서열 순서와 방향을 직접 보여주지만, 한 번에 하나의 변이-참조 서열 쌍만 표현할 수 있습니다.
8.8.2 게놈 좌표계에서 벗어나 기능적 결과에 초점
게놈 좌표계에 얽매이지 않고 기능적 결과에 초점을 맞추는 것이 더 의미 있을 수 있습니다. 예를 들어, 유전자 융합과 같이 생물학적으로 중요한 특징을 강조하기 위해 노드가 서열 세그먼트를 나타내고 화살표가 서열 순서를 나타내는 그래프를 사용할 수 있습니다.
8.9 효과적인 데이터 시각화를 위한 검토 지점
효과적인 데이터 시각화는 시각적 단서를 활용하여 그림의 내재된 의미를 명확하게 표현해야 합니다.
8.9.1 개념적 그림: 명확한 구조화
게슈탈트 원리를 활용하여 객체들을 근접성, 연결성, 포함 원리에 따라 그룹화하여 명확한 시각적 구조를 만듭니다. 네거티브 공간을 활용하고, 균일한 빈 공간을 만들어 콘텐츠를 조직화할 수 있습니다. 그림의 의도가 레이아웃을 안내하도록 하고, 시각적 완성 원리에 따라 요소를 정렬하여 순서를 명확히 합니다.
8.9.2 데이터 그래프: 연결성 드러내기와 정확한 시각적 인코딩
그래프는 데이터 간의 연결성을 드러내는 것이 주된 목적입니다. 그래픽 인코딩은 이러한 감지 과정을 지원해야 합니다. 막대 차트는 범주 간의 상대적 차이를 파악하는 데 효과적이며, 원형 차트는 전체의 부분을 묘사하는 데 유용합니다.
여러 차원 데이터를 표시할 때는 다변량 산점도를 활용할 수 있으나, 너무 많은 시각적 변수는 구분을 어렵게 합니다. 색상 값과 크기 스케일을 제한하거나, 가장 중요한 매개변수만 그리는 것이 좋습니다. 색상은 정량적 정보 표현에 한계가 있으며, 특히 노란색이나 무지개 스펙트럼은 값 범위 표현에 비일관성을 야기할 수 있습니다. 일관된 시각적 스케일을 위해 흑백 그라데이션이 효과적입니다.
이러한 검토 지점들이 효과적인 데이터 시각화를 위한 좋은 지침이 되기를 바랍니다.
Footnotes
https://blogs.nature.com/methagora/2013/07/data-visualization-points-of-view.html↩︎