지난 1편에서는 딥러닝이 DNA 서열을 직접 읽어 유전자 발현을 예측하는 'S2E 모델'의 기본 원리를 살펴보았습니다. CNN이 짧은 패턴(모티프)을 찾고, 트랜스포머가 원거리 상호작용을 파악하는 방식을 통해, AI가 생명의 설계도를 '읽는' 법을 배우기 시작했음을 알 수 있었습니다.
2025.07.19 - [Omics] - 인공지능, 생명의 설계도를 읽다: 유전자 발현 예측의 서막
인공지능, 생명의 설계도를 읽다: 유전자 발현 예측의 서막
들어가며: 우리 몸속 거대한 오케스트라우리 몸을 하나의 거대한 오케스트라에 비유해 봅시다. 수십조 개의 세포라는 연주자들이 각자 다른 악기(단백질)를 연주하며 생명이라는 장엄한 교향곡
zinomi-day.com
하지만 세상에서 가장 뛰어난 학생이라도 부실한 교재로는 좋은 성적을 낼 수 없습니다. 딥러닝 모델도 마찬가지입니다. 모델의 성능은 전적으로 훈련 데이터의 양과 질에 달려있습니다. S2E 모델을 '생물학의 대가'로 키우기 위해, 과학자들은 어떤 종류의 데이터를 '교과서'로 사용하는 걸까요?
오늘은 S2E 모델을 훈련시키는 다양한 데이터의 종류를 살펴보고, 하나의 교과서만 파는 것보다 여러 과목을 동시에 가르칠 때 더 똑똑해지는 '멀티태스크 학습'의 개념, 그리고 AI를 위한 맞춤형 '실전 모의고사'인 MPRA 기술까지 깊이 있게 탐구해보겠습니다.
S2E 모델의 목표는 'DNA 서열'을 보고 '유전자 발현'을 맞추는 것입니다. 따라서 훈련 데이터는 기본적으로 [DNA 서열, 그 서열의 활동 측정값] 쌍으로 구성됩니다. 이 '활동 측정값'을 얻기 위해 과학자들은 다양한 실험 기법을 사용합니다.
유전자가 발현되려면 먼저 DNA가 들어있는 염색질(chromatin)의 구조가 물리적으로 열려야 하고, 그곳에 전사 인자들이 결합해야 합니다. 후성유전체 데이터는 이러한 간접적인 활동의 증거를 제공합니다.
만약 학생에게 국어, 영어, 사회 교과서를 따로따로 주고 각 과목만 공부하게 하는 대신, 세 과목을 융합하여 "셰익스피어 시대 영국의 사회상" 같은 주제를 탐구하게 한다면 어떨까요? 학생은 각 분야의 지식이 어떻게 연결되는지 배우며 더 깊은 통찰력을 얻게 될 것입니다.
멀티태스크 학습(Multitask Learning)이 바로 이런 접근 방식입니다. 하나의 S2E 모델에게 단 하나의 목표(예: RNA-seq 예측)만 주는 것이 아니라, 여러 종류의 데이터(ChIP-seq, ATAC-seq, RNA-seq 등)를 동시에 예측하도록 훈련시키는 것입니다.
지금까지 소개한 데이터들은 모두 우리 몸속에 존재하는 '자연 상태'의 DNA에서 얻은 것입니다. 이는 마치 기출문제집과 같아서 매우 중요하지만, 특정 유형의 문제만 반복되거나 우리가 궁금해하는 유형의 문제가 아예 없을 수도 있습니다.
이 한계를 극복하기 위해 과학자들은 MPRA(Massively Parallel Reporter Assay) 라는 기발한 기술을 개발했습니다. 이는 수천에서 수백만 개의 DNA 조각을 인공적으로 합성하거나 잘라내어, 각 조각이 얼마나 유전자를 발현시키는 능력이 있는지 '대규모로, 병렬적으로' 테스트하는 실험입니다.
MPRA 데이터는 S2E 모델에게 최고의 '맞춤형 실전 모의고사'입니다. 기출문제(자연 게놈)에서는 볼 수 없었던 다양한 변형 문제, 심지어는 완전히 새로운 유형의 문제(랜덤 서열)를 제공하여 AI가 정말로 DNA 문법의 근본 원리를 이해했는지 검증하고 훈련시킬 수 있습니다.
오늘은 S2E 모델을 훈련시키는 다양한 종류의 '교과서'와 '모의고사'에 대해 알아보았습니다. 후성유전체 지도부터 직접적인 RNA 측정, 그리고 맞춤형 MPRA 데이터까지, 방대한 양의 고품질 데이터가 AI를 점점 더 정교하게 만들고 있습니다.
이렇게 똑똑해진 AI는 이제 단순히 예측만 하는 '점쟁이'에 머무르지 않습니다. 우리는 AI에게 "왜 그렇게 예측했니?"라고 물어봄으로써, 그동안 베일에 싸여 있던 생명의 조절 원리를 역으로 파헤칠 수 있습니다. 이것이 바로 '블랙박스 열기(Opening the black box)'입니다.
다음 마지막 3편에서는, 잘 훈련된 S2E 모델을 활용하여 유전 변이의 질병 위험도를 예측하고, 심지어 세상에 없던 새로운 기능의 DNA를 설계하는 등, 이 기술이 어떻게 현실 세계의 문제를 해결하고 미래 생명공학의 지형을 바꾸고 있는지 그 무한한 가능성을 탐험해 보겠습니다.
AI, 생명의 암호를 넘어 미래를 설계하다 (0) | 2025.07.19 |
---|---|
인공지능, 생명의 설계도를 읽다: 유전자 발현 예측의 서막 (0) | 2025.07.19 |
Drug target Mendelian Randomization (0) | 2025.04.12 |
Mendelian Randomization의 나아가야 할 방향에 대하여 (0) | 2025.04.12 |
Single-cell RNA-seq (0) | 2025.04.12 |