tomorrow-lab
  • About
  • Projects
Static Badge Pixi Badge
Categories
All (62)
A/B-test (1)
ANOVA (2)
Antibody (1)
Bioconductor (1)
Bioinformatics (25)
Biology (1)
Biopython (1)
Biotite (1)
Blog (1)
Calplot (1)
Causal inference (1)
Cellranger (1)
Character encoding (1)
Cheatsheet (2)
Clinical trial (1)
Coding (1)
Coding test (2)
Data science (13)
De novo design (1)
Docking (1)
Epitope binning (1)
F-test (1)
Fitness (1)
Gene Expression Omnibus (1)
Git (1)
Health (1)
Huggingface (1)
Jupyter (1)
Jupyterlab (1)
LLM (3)
Machine Learning (3)
MacOS (1)
Mathmatics (1)
Mindfullness (1)
Mojo lang (1)
News (1)
OpenCV (1)
Package manager (4)
Procrastination (1)
Productivity (8)
Programming (4)
Protein engineering (1)
Protocols (1)
Python (44)
Quarto blog (1)
R (8)
RFantibody (1)
Rosalind (4)
Rust (2)
Scanpy (10)
scRNA-seq (15)
Seurat (3)
Statistics (4)
T-test (3)
Text encoding (1)
Tidy data (1)
Tip (22)
Virtual environment (4)
Visualization (9)
Wet lab (1)
Workshop (7)

미루는 것을 멈추기 위한 간단한 방법들

Procrastination
Productivity
Tip
미루는 습관을 완전히 없애려고 처음부터 너무 애쓰기보다는 새로운 습관에 익숙해지듯 차근차근 그 정도를 줄여나가는 것이 효과적입니다. 마치 단숨에 높은 벽을 넘을 수 없듯이 오랫동안 굳어진 습관을 바꾸는 데에도 섬세한 접근 방식이 필요합니다. 다음은 미루는 습관을 극복하고 행동력을 키우는 데 도움이 되는…
2025-05-02
Taeyoon Kim

파이썬을 사용한 각종 Bioinformatic 시각화 스니펫

Biology
Bioinformatics
Biopython
Biotite
Python
Visualization
생명과학 연구는 방대한 데이터 분석과 복잡한 계산을 요구합니다. 특히 유전체, 단백질체, 전사체 데이터 등 생물학적 데이터의 폭발적인 증가로 인해, 프로그래밍을 활용한 효율적인 데이터 처리 및 분석은 필수적인 역량이 되었습니다. 이러한 어려움을 극복하고 연구 효율성을 높이기 위해 파이썬 기반의 강력한…
2025-04-12
Taeyoon Kim

RFantibody로 de novo antibody discovery

Python
RFantibody
Antibody
De novo design
RFantibody는 구조 기반으로 새로운 항체와 나노바디를 디자인 할 수 있는 소프트웨어입니다. 구체적으로 RFantibody는 아래 세 가지 독립적인 소프트웨어들로 구성되어 있습니다.
2025-03-31
Taeyoon Kim

데이터 기반 의사 결정을 위한 시각화

Data science
Python
이번 글에서는 데이터 기반 의사 결정(Data-Driven Decision Making)에 대해 이야기해 보려고 합니다. 데이터 기반 의사 결정은 객관적인 데이터를 분석하고 해석하여 결정을 내리는 방식으로 직관이나 경험에 의존하는 것보다 더욱 합리적인 판단을 가능하게 하여 연구 및 비즈니스 분야에서 그…
2025-03-29
Taeyoon Kim

OpenCV를 사용해 이미지에서 세포 수 측정

Python
OpenCV
생물학 실험에서 이미지에서 세포 수를 측정 작업은 매우 흔한 일입니다. 일반적으로는 이미지를 촬영하는 장비에 자동으로 세포 수를 측적하는 소프트웨어가 같이 제공되고 있습니다. 그러나 가끔은 수동으로 세포의 수를 측정해야하는 경우가 생기곤 합니다. 그런 작업은 시간과 노력이 많이 들고 결과를 신뢰하기 어렵습니다.
2025-03-22
Taeyoon Kim

LLM 사전 학습에 대한 이해

LLM
Machine Learning
Python
이 글은 deeplearning.ai의 Pre-training LLM 강의를 듣고 나름대로 정리를 해본 글입니다. 자세한 내용은 강의를 참고해주세요. LLM 사전 학습은 컴퓨팅 파워가 많이 필요하기 때문에 사실상 개인이 수행하기에는 어려운 작업이지만, 이 글을 통해 LLM 사전 학습에 대한 전반적인 이해를…
2025-03-13
Taeyoon Kim

LLM을 사용한 스팸 메시지 분류

Python
LLM
Huggingface
이메일은 현대 사회의 필수적인 커뮤니케이션 도구입니다. 하지만 스팸 메일의 범람은 사용자들에게 큰 골칫거리가 되고 있습니다. 광고부터 악성 피싱 시도까지 스팸 메일은 생산성을 저하시키고 보안 위험을 초래합니다. 이러한 문제를 해결하기 위해 다양한 스팸 필터링 기술이 개발되어 왔지만 최근 인공지능 기술의…
2025-03-01
Taeyoon Kim

파이썬으로 Epitope binning 하기

Python
Visualization
Epitope binning
치료용 단클론 항체(mAbs)는 바이오의약품 시장의 70% 이상을 차지하며 지속적으로 성장하고 있습니다. 항체 개발 초기 단계에서 치료제 및 진단 도구로 사용하기 위해 적절한 특성을 가진 후보를 선별하는 것이 중요합니다. 에피토프 빈닝은 mAbs가 표적 단백질(항원)에 결합하는 특성을 파악하는 방법입니다. 이…
2025-02-23
Taeyoon Kim

AKTA 크로마토그램(chromatogram) 시각화

Python
Visualization
AKTA 시스템은 단백질 정제 과정에서 널리 사용되는 크로마토그래피 시스템입니다. 과거에는 GE healthcare에서 현재는 Cytiva사에서 판매되고 있으며 자체 소프트웨어 UNICORN를 제공합니다. 여기서는 UNICORN에서 추출한 스프레드 시트 데이터를 사용해 크로마토그래피 그래프를 생성하는 방법을…
2025-02-14
Taeyoon Kim

실습으로 배우는 대규모 언어 모델

LLM
Machine Learning
Python
최근 출간된 책 Hands-On Large Language Models (Jay Alammar, Maarten Grootendorst 저, 2024)을 읽고 그 내용을 정리해보려고 합니다. 이 책은 급속도로 발전하고 있는 대규모 언어 모델(Large Language Models, LLMs)의 이론을 쉽게…
2025-01-26
Taeyoon Kim

타이핑으로 소비되는 칼로리

Python
Visualization
Health
Fitness
Productivity
문득 타이핑이 얼마나 많은 칼로리를 소모하는지 궁금해졌습니다. 하루 종일 키보드를 두드리면 꽤 많은 운동이 되지 않을까 하는 생각이 들었고 찾아보니 이미 계산해본 사람이 있었습니다.[^1] 이 글은 사실상 원저자의 글을 번역하고 추가로 코드 작성을 한 것입니다. 타이핑으로 소모되는 칼로리를 알아보기 위해…
2025-01-22
Taeyoon Kim

Calplot: 파이썬으로 만드는 멋진 캘린더 히트맵

Python
Visualization
Calplot
calplot은 파이썬에서 시계열 데이터를 시각적으로 표현할 수 있는 라이브러리입니다. 이 라이브러리를 사용하면 GitHub의 기여도 그래프와 유사한 캘린더 형태의 히트맵을 쉽게 만들 수 있습니다. 이번 포스팅에서는 Meteostat 라이브러리를 사용하여 날씨 데이터를 가져오고 캘린더 형태로 시각화하는 방법을…
2025-01-18
Taeyoon Kim

코딩테스트 기초

Coding test
Python
Rust
Programming
코딩테스트 기초 테스트의 출처는 https://school.programmers.co.kr 입니다.
2025-01-11
Taeyoon Kim

코딩테스트 입문

Coding test
Python
Rust
Programming
코딩테스트 입문 테스트의 출처는 https://school.programmers.co.kr 입니다.
2025-01-11
Taeyoon Kim

쿼토로 시작하는 블로그

Quarto blog
Blog
블로그는 많은 이유로 훌륭한 글쓰기 도구입니다. 그리고 쿼토(Quarto)는 몇번의 클릭만으로 블로그를 만들 수 있습니다. 게다가 커스터마이징이 쉽기도 합니다. 이 글은 쿼토를 이용한 블로그 만들기 가이드로 여러분의 소중한 시간을 절약하고 멋진 블로그를 시작하는 데 도움을 주기 위해 작성되었습니다.1
2025-01-10
Taeyoon Kim

Mojo 프로그래밍 언어

Coding
Programming
Mojo lang
Python 은 세계에서 가장 널리 사용되는 프로그래밍 언어 중 하나로 사용자 친화적인 성격 덕분에 다양한 분야에서 활발하게 활용되고 있습니다. 웹 개발자, 데이터 과학자, 마케터, 그리고 AI 전문가들까지, 여러 분야의 전문가들이 Python 을 선호하는 이유는 초보자도 쉽게 배울 수 있고 읽기와 쓰기가…
2025-01-08
Taeyoon Kim

파이썬 코딩 팁

Python
Tip
Productivity
Programming
Cheatsheet
이 글은 원본 글의 내용을 임의로 번역한 것입니다. 원저자는 데이터 사이언티스트와 AI 엔지니어가 Python으로 효율적으로 코드를 작성하기 위한 다양한 팁과 노하우를 공유하고자 여러 가지 원칙과 기법을 소개합니다. 이 내용을 통해 여러분의 프로그래밍 능력을 한층 더 향상시키길 바랍니다.
2024-12-21
Taeyoon Kim

학술 논문을 효율적으로 읽는 법

Data science
Tip
Productivity
데이터 과학 분야에서 머신 러닝, 딥 러닝, 새로운 데이터베이스 및 데이터 엔지니어링과 같은 분야에서 사용되는 기술들은 매우 복잡합니다. 게다가 새로운 기술들이 매주 쏟아져 나오고 있어서 최신 동향을 따라잡고 필요한 정보를 얻기 위해서는 꾸준히 논문을 읽고 공부해야 합니다. 다만, 논문을 읽는 것은 쉬운 일이…
2024-11-30
Taeyoon Kim

파이썬으로 Sankey diagram그리기

Python
Visualization
Bioinformatics
Sankey 다이어그램은 한 값 집합에서 다른 값 집합으로의 흐름을 시각화하는 도구로 열 손실에 비례하는 너비를 가진 화살표를 사용하여 증기 엔진 효율을 시각화했던 Sankey 선장의 이름을 따서 명명되었습니다. Sankey 다이어그램은 서로 다른 고객 세그먼트 간의 전환이나 흐름을 보여주는 데 효과적이며…
2024-11-29
Taeyoon Kim

Seurat 라이브러리 치트시트(Cheatsheet)

R
Tip
scRNA-seq
Bioinformatics
Seurat
Cheatsheet
Seurat 은 scRNA-seq 분석에서 가장 널리 사용되는 R 패키지로, 다양한 기능을 통해 데이터를 처리하고 시각화합니다. 이 문서는 주요 명령어와 기능을 요약하여 사용자가 데이터를 효율적으로 다룰 수 있도록 지원합니다. 특히, 데이터 로드, 전처리, 클러스터링 및 시각화와 같은 일반적인 작업에 대한…
2024-11-12
Taeyoon Kim

GSE에서 sc-RNAseq 데이터 가져오기

Python
Gene Expression Omnibus
scRNA-seq
Bioinformatics
GSE 데이터베이스는 고처리량 유전자 발현 데이터, 특히 유전자 발현 옴니버스(Gene Expression Omnibus) 데이터의 저장소입니다. 이는 국립생물공학정보센터(NCBI)에서 관리하는 무료 온라인 데이터베이스로, 연구자와 과학자들이 유전자 발현 데이터를 공유하고 접근하는 데 널리 사용됩니다. 이…
2024-11-09
Taeyoon Kim

임상 통계학

Clinical trial
Statistics
다음은 책 ” 강승호, 신약개발에 필요한 임상통계학, 자유 아카데미, 2022” 을 읽고 요약 정리한 것으로 많은 설명은 perplexity 를 사용해 덧붙였습니다. 책 전체 내용을 요약하지는 않았기 때문에 더 자세한 내용에 관심이 있으다면 책을 한번 읽어보시길 바랍니다.
2024-10-25
Taeyoon Kim

인과 관계 추론을 위한 기본 규칙

Python
Causal inference
현실 데이터에서 인과 관계를 관찰할 수 있는 연관성 및 상관관계에 대한 기본 규칙에 대해 알아봅니다. 각각의 규칙을 최대한 쉽게 이해할 수 있도록 간단하게 설명한다음 매우 간단한 파이썬 코드를 사용해 어떻게 작동하는지 살펴봅니다.
2024-10-19
Taeyoon Kim

scRNA-seq 소개

scRNA-seq
Bioinformatics
Tip
얼마전 뉴욕 타임즈에 A.I. Is Learning What It Means to Be Alive 라는 제목의 기사가 공개되었습니다. 해당 기사에서 에 scRNA-seq 기초 모델이 단일 세포 RNA 시퀀싱 (scRNA) 데이터를 해석, 사용, 적용하는 방식을 어떻게 변화시킬 수 있는지에 대한 이야기가…
2024-10-16
Taeyoon Kim

.DS_Store 파일 관리

Productivity
Tip
MacOS
Git
.DS_Store 파일은 다른 OS 로 데이터를 공유하는 과정에서 전달되는 경우가 많고 불필요한 정보까지 옮겨 질 수 있습니다. 그래서 아래와 같이 삭제해서 데이터를 옮기거나 자동 생성을 방지하는 작업이 필요합니다.
2024-10-07
Taeyoon Kim

사보타지 매뉴얼

Productivity
Tip
2008 년에 CIA 에서 공개한 Simple Sabotage Field Manual 의 번역본입니다. 문서가 1944 년도에 작성된 것이다보니 현재와는 맞지 않는 내용이 많습니다. 그래도 읽다보면 재치 있는 부분도 있고 읽어볼 가치가 있는 팁들인 것 같습니다. 특히 직장에 관련된 내용은 그때나 지금이나 별반…
2024-10-07
Taeyoon Kim

Rosalind Textbook track 문제풀이

Python
Rosalind
Bioinformatics
Tip
Phillip Compeau 와 Pavel Pevzner 가 쓴 책 “능동적 접근 방식의 생물정보학 알고리즘” 에서 제공되는 연습 문제 모음입니다.
2024-09-28
Taeyoon Kim

Rosalind Algorithmic Heights 문제풀이

Python
Rosalind
Bioinformatics
Tip
Dasgupta, Papadimitriou, Vazirani 의 책 “알고리즘” 에 포함된 연습문제의 모음입니다.
2024-09-28
Taeyoon Kim

Rosalind Stronghold 문제풀이

Python
Rosalind
Bioinformatics
Tip
생물정보학의 다양한 주제인 질량 분석, 서열 정렬, 동적 프로그래밍, 게놈 어셈블리, 계통 발생, 확률, 문자열 알고리즘 등의 기초가 되는 알고리즘에 대해 알아봅니다.
2024-09-28
Taeyoon Kim

실험실 프로토콜 모음

Wet lab
Tip
Protocols
이곳에는 실험 방법에 대한 간략한 정보가 있습니다. 계속해서 자주 사용하는 프로토콜들을 정리할 예정입니다.
2024-09-28
Taeyoon Kim

Rosalind Armory 문제풀이

Python
Rosalind
Bioinformatics
Tip
생물 정보학 분석을 위해 사용할 수 있는 소프트웨어는 이미 많습니다. Rosalind_Stronghold 에서는 알고리즘을 직접 구현했다면, 여기 Rosalind_Armory 에서는 이미 존재하는 도구를 사용하여 비슷한 문제를 풀어봅니다.
2024-09-28
Taeyoon Kim

문자열 인코딩 문제

Python
R
Character encoding
Text encoding
Data science
Tip
문자 인코딩은 원시 바이너리 바이트 문자열 (예: 0110100001101001) 을 사람이 읽을 수 있는 텍스트 (예: “hi”) 로 매핑하기 위한 특정 규칙 집합입니다. 문자 인코딩은 다양하기 때문에 원래 작성된 인코딩과 다른 인코딩으로 텍스트를 읽으려고 하면 모지바케이 (mojibake; 알수 없는…
2024-09-21
Taeyoon Kim

머신러닝을 위한 수학

Machine Learning
Mathmatics
Data science
책 “아카이시 마사노리, 딥러닝을 위한 수학, 위키북스, 2020”을 읽고 저자가 정리한 딥러닝을 위한 수학의 최단기 코스 목차를 참고해 내용을 하였습니다. 더 자세한 설명과 파이썬 코드를 알고 싶으시다면 책을 읽어보시는 걸 추천드립니다.
2024-09-10
Taeyoon Kim

DockQ로 도킹 모델 품질 측정하기

Bioinformatics
Tip
Docking
DockQ 는 단백질, DNA 및 저분자 화합물 도킹 모델에 대한 품질을 측정하는 도구입니다. DockQ 점수는 0 에서 1 까지의 범위로 측정되며 품질은 아래와 같이 정의됩니다.
2024-09-09
Taeyoon Kim

마음챙김과 효율을 위한 생산성 디버깅

Productivity
Tip
Mindfullness
우리 모두 경험하고 있습니다. 일을 하려고 자리에 앉았는데 갑자기 휴대폰이 울리는 거예요. 어느새 고양이 동영상과 나무 위키 문서를 보게 되죠. 그러고 나면 하루가 어떻게 지나갔는지 벌써 저녁입니다. 낯익은 이야기인가요?
2024-09-08
Taeyoon Kim

오픈 소스 PyMOL 설치하기

Python
Protein engineering
Visualization
Tip
PyMOL 은 생화학과 분자 생물학에서 자주 사용되는 분자 시각화 소프트웨어입니다. 단백질, 핵산, 소형 화합물 등의 3D 구조를 시각화하고 분석하고 그래픽 렌더링 기능을 통해 고품질의 이미지를 생성할 수 있습니다. PyMOL 에는 오픈 소스 버전과 PyMOL by Schrödinger(상업 라이센스) 가…
2024-09-01
Taeyoon Kim

pip 대신에 uv 사용하기

Python
Package manager
Virtual environment
Data science
Tip
pip 는 파이썬 패키지 관리자로 유용하지만 아래와 같은 몇 가지 근본적인 문제가 있습니다. 특히 패키지 의존성과 환경 관리는 문제가 터지면 해결하기가 아주 어렵습니다.
2024-08-24
Taeyoon Kim

Scanpy로 scRNA-seq 분석 07

Python
scRNA-seq
Bioinformatics
Scanpy
Workshop
공간 전사체 분석은 종양 연구에서 매우 중요한데 종양 미세환경 내의 세포들(종양 세포, 면역세포, 혈관세포 등)과 그들의 상호작용을 이해하는 데 도움이 되기 때문입니다. 특히 공간에서 일어나는 유전자 발현 패턴이 특정 치료제나 면역 치료에 대한 반응성을 예측할 수 있다고 믿어지기 때문에 더욱 더 중요해지고…
2024-08-15
Taeyoon Kim

Scanpy로 scRNA-seq 분석 06

Python
scRNA-seq
Bioinformatics
Scanpy
Workshop
세포 유형의 발달 궤적을 분석하고 시각화하는 것은 생물학 연구에서 매우 중요한 과정입니다. 특히 단일 세포 전사체 분석(single-cell transcriptomics)의 발전으로, 개별 세포의 발달 경로와 상태 변화를 더 정밀하게 추적할 수 있게 되었습니다. 이러한 분석을 위해 다양한 기법들이 사용되는데…
2024-08-11
Taeyoon Kim

Scanpy로 scRNA-seq 분석 05

Python
scRNA-seq
Bioinformatics
Scanpy
Workshop
클러스터링으로 scRNA-seq 데이터를 여러 그룹으로 나눈 뒤에는 해당 그룹이 어떤 세포인지 아는 것은 분석 결과를 해석할 때 중요합니다. 세포 유형을 예측하는 방법에는 크게 두 가지 방법이 있습니다. 레퍼런스 scRNA-seq 데이터를 사용해 유사도를 비교하는 방법과 알려진 마커 유전자를 사용해 직접 세포…
2024-08-10
Taeyoon Kim

Scanpy로 scRNA-seq 분석 04

Python
scRNA-seq
Bioinformatics
Scanpy
Workshop
클러스터링으로 scRNA-seq 데이터를 여러 그룹으로 나눈 뒤에는 해당 그룹이 어떤 세포인지 아는 것은 분석 결과를 해석할 때 중요합니다. 세포 유형을 예측하는 방법에는 크게 두 가지 방법이 있습니다. 레퍼런스 scRNA-seq 데이터를 사용해 유사도를 비교하는 방법과 알려진 마커 유전자를 사용해 직접 세포…
2024-07-22
Taeyoon Kim

Scanpy로 scRNA-seq 분석 03

Python
scRNA-seq
Bioinformatics
Scanpy
Workshop
scRNA-seq 기술의 발달로 개별 세포 수준에서의 유전자 발현 데이터를 얻는 것이 가능해졌습니다. 세포 수준의 데이터는 생명과학 연구에서 세포 유형 및 기능적 특성을 이해하는데 중요한 정보를 제공합니다. 그러나 동시에 데이터가 너무 방대하고 복잡해 새로운 분석 도구와 알고리즘이 필요하게 되었습니다. 이번…
2024-06-28
Taeyoon Kim

Scanpy로 scRNA-seq 분석 02

Python
scRNA-seq
Bioinformatics
Scanpy
Workshop
이번 실습에서는 데이터의 시각화를 위한 차원축소 방법인 PCA, tSNE, UMAP등에 대해 배우고 배치 효과를 제거해서 여러 데이터셋을 통합하는 방법에 대해 살펴봅니다.
2024-06-22
Taeyoon Kim

Scanpy로 scRNA-seq 분석 01

Python
scRNA-seq
Bioinformatics
Scanpy
Workshop
단일 세포 RNA 시퀀싱(single-cell RNA sequencing, scRNA-seq)은 개별 세포의 전사체(transcriptome)를 분석하여 세포 간의 이질성을 탐구하는 강력한 도구이지만, 기술적 잡음과 변동성이 높아 데이터 품질 저하의 위험이 큽니다. 따라서 낮은 품질의 데이터를 사용하면 잘못된…
2024-06-17
Taeyoon Kim

어떻게 데이터 과학은 작동하는가?

Data science
Tip
데이터 과학(Data science)은 데이터를 수집, 처리, 분석하여 유의미한 정보를 추출하고 의사결정을 지원하는 과정입니다. 데이터 과학자들은 통계학, 컴퓨터 과학, 기반 지식을 융합해 데이터를 활용한 문제 해결과 혁신을 가능하게 합니다. 이제 데이터를 어떻게 분석해야 하는지에 간략하게 알아보죠.
2024-05-30
Taeyoon Kim

Marsilea로 복잡한 시각화 처리하기

Python
Data science
Bioinformatics
Visualization
이 튜토리얼은 Python의 기본 지식을 갖고 있고 NumPy와 Matplotlib을 사용하는 방법을 알고 있다고 가정합니다. 특히 Matplotlib에서 Figure 및 Axes의 개념에 대해 알고 있는 것이 좋습니다.
2024-04-20
Taeyoon Kim

Scanpy로 gene_id를 gene_symbol로 변경하기

Python
scRNA-seq
Bioinformatics
Scanpy
공개된 scRNA-seq 데이터를 다운로드 하다보면 gene_symbol을 포함하지 않고 gene_id만 있는 경우를 만나게 됩니다. 그런 경우 몇가지 불편한 점이 생깁니다. 예를 들면 해석의 어려움으로 gene_id만 있는 데이터셋은 사람이 직관적으로 해석하기 어렵습니다. 반면에 gene_symbol은 보다…
2024-04-12
Taeyoon Kim

미니멀한 폴더 정리: PARA method

Productivity
Tip
문서를 손쉽게 정리할 수 있는 간편한 시스템에 대해 생각해보세요. 문서 정리 시스템은 정보를 정확히 분류하여 필요할 때 빠르게 찾을 수 있어야 합니다. 그리고 간편해야 하며 유지보수도 쉬워야 합니다. 뿐만 아니라 다양한 장소와 플랫폼에서 사용할 수 있어야 합니다.
2024-04-04
Taeyoon Kim

RDS 객체를 10X MEX 형식으로 저장하기

R
scRNA-seq
Bioinformatics
Seurat
이전 글에서는 Scanpy를 사용해 10x genomics의 10X MEX 포멧의 원시데이터를 불러오고 다시 10X MEX format형식으로 내보내는 내용을 살펴봤습니다. 이번에는 Seurat을 사용해 동일한 작업을 해봅니다.
2024-03-26
Taeyoon Kim

AnnData 객체를 10X MEX 형식으로 저장하기

Python
scRNA-seq
Bioinformatics
Scanpy
단일세포 RNA 시퀀싱(scRNA-seq) 데이터 분석의 양대 산맥인 Scanpy와 Seurat은 서로 다른 파일 형식으로 데이터를 저장합니다. 더구나 프로그래밍 언어도 다르다 보니, 서로 데이터 변환이 쉽지 않습니다.
2024-03-21
Taeyoon Kim

의존성 지옥에 빠진 당신을 구하러 온 Pixi

Python
Package manager
Virtual environment
R
Tip
파이썬 의존성 문제는 프로젝트가 의존하는 패키지 간 충돌, 버전 관리의 어려움, 시스템 환경에 따른 호환성 문제 등으로 나타납니다. 다음과 같은 상황에서 의존성 지옥이 발생할 수 있습니다.
2024-02-28
Taeyoon Kim

scRNA-seq 데이터 QC하기

Python
scRNA-seq
Bioinformatics
Scanpy
scRNA-seq 데이터에는 두 가지 중요한 특성이 있습니다. 첫째, scRNA-seq 데이터는 드롭아웃이 발생하는데, 이는 mRNA으로 인해 데이터에 0이 과도하게 많다는 것을 의미합니다. 둘째, 생물학적 복잡성으로 인해 얻은 데이터를 보정하고 품질 관리에 제한이 존재합니다. 따라서 생물학적 의미를 과하게…
2024-02-22
Taeyoon Kim

10X genomics scRNA-seq alignment

Python
Bioinformatics
scRNA-seq
Cellranger
다음과 같은 몇가지 가정을 하고 시작하겠습니다.
2024-02-21
Taeyoon Kim

miniforge: 파이썬과 R의 패키지 및 개발 환경 관리 도구

Python
Package manager
Virtual environment
Tip
R
파이썬과 R에는 유용한 패키지들이 아주 많습니다. 그러다보니 여러 패키지들이 버전이 서로 충돌하거나 호환되지 않는 경우가 발생하곤 합니다. 예를 들어 A 패키지가 B 패키지 1.0 버전에 기반해 만들어졌는데 C 패키지가 B 패키지 2.0 버전을 요구한다면 A와 C를 동시에 사용할 수 없는 경우가 생깁니다.
2024-01-28
Taeyoon Kim

파이썬 statsmodels로 통계분석

Python
Statistics
T-test
A/B-test
ANOVA
통계적 추론이라는 것은 제한된 실험 데이터에서 얻은 결과를 모집단에도 적용하려는 것입니다. 이번 포스트에서는 통계적 추론에 사용되는 검정법을 배워봅니다.
2023-10-07
Taeyoon Kim

파이썬 통계분석하기

Python
T-test
F-test
Statistics
통계 계산을 위한 프로그래밍 언어에 R 프로그래밍 언어가 있는데 왜 파이썬을 써야 할까요? R은 문법 자체부터 통계에 특화되어 있고 여러가지 통계분석을 할 수 있습니다. 그럼에도 불구하고 제가 파이썬을 통계분석에 사용하는 이유는 간단합니다. 파이썬은 보다 범용적인 언어이고 라이브러리가 풍부해서 제가 원하는…
2023-09-17
Taeyoon Kim

Seurat으로 scRNA seq데이터 분석하기

R
Data science
Bioinformatics
Seurat
scRNA-seq는 single-cell RNA sequencing의 줄임말로, 하나의 세포에서 mRNA를 측정하는 방법입니다. 이 기술은 기존 bulk RNA-seq 방법과는 달리 하나의 세포에서 RNA를 추출하여 분석합니다. 이를 통해, 개별 세포의 유전자 발현 패턴, 전사체 감지, 변형과 발현의 상호작용…
2023-04-01
Taeyoon Kim

ggpubr로 논문에 사용할 플랏그리기

R
Data science
Bioinformatics
Visualization
모든 내용은 공식문서에서 간추린 것입니다. 자세한것은 공식문서를 읽어주세요.
2023-03-01
Taeyoon Kim

파이썬으로 통계 분석하기

Python
Data science
Statistics
T-test
ANOVA
Pingouin은 간단하지만 완전한 통계 기능를 위해 설계되었습니다. 예를 들어 기존의 SciPy 패키지의 ttest_ind 함수는 T-value과 p-value만 알려주지만 Pingouin의 ttest 함수는 T-value, p-value뿐만 아니라 자유도, 효과 크기(Cohen ’s d), 95% 신뢰…
2023-01-23
Taeyoon Kim

Jupyter notebook 소개

Jupyterlab
Jupyter
Python
Data science
Jupyter Notebook은 웹 브라우저를 통해 실행되는 오픈 소스 인터랙티브 컴퓨팅 환경입니다. 코드, 텍스트, 수식, 이미지 등 다양한 형태의 콘텐츠를 하나의 문서에 통합하여 작성, 실행 및 저장할 수 있어 코딩과 문서화를 동시에 할 수 있다는 장점이 있습니다. 그리고 Python뿐 아니라 R…
2023-01-10
Taeyoon Kim

파이썬과 R 개발 환경 설정하기

R
Package manager
Virtual environment
Bioconductor
Python
Tip
Data science
파이썬은 아주 인기있는 프로그래밍 언어로, 웹 사이트는 물론 게임, 과학용 소프트웨어, 그래픽 소프트웨어 등 다양한 것을 만들 수 있습니다. 파이썬은 1980 년대 후반에 귀도 반 로썸 프로그래밍 언어를 기계 뿐만 아니라 인간도 읽을 수 있도록 만들고자 탄생한 언어입니다. 파이썬이 다른 프로그래밍 언어보다…
2023-01-04
Taeyoon Kim

깔끔하게 데이터 정리하기

News
Python
Data science
Tidy data
우리는 데이터 분석을 수행하면서 다양한 데이터 변환 작업을 수행하게 된다. 이는 데이터가 원래 특정 분석을 염두에 두고 만들어지는 경우가 거의 없기 때문이며, 사실 애초 데이터 설계를 할 때 분석 목적을 알기도 불가능하다는 게 가장 큰 원인이 아닐까 한다. 이런 연유로 전체 데이터 분석 작업에서 70% 혹은…
2023-01-03
Taeyoon Kim
No matching items

    Proudly served by github pages

     

    This blog is built with ❤️ and Quarto.