상세 컨텐츠

본문 제목

인공지능의 교과서: 무엇으로 생명의 비밀을 가르치는가?

Omics

by zinomi 2025. 7. 19. 13:26

본문

들어가며: AI에게 필요한 최고의 교재

지난 1편에서는 딥러닝이 DNA 서열을 직접 읽어 유전자 발현을 예측하는 'S2E 모델'의 기본 원리를 살펴보았습니다. CNN이 짧은 패턴(모티프)을 찾고, 트랜스포머가 원거리 상호작용을 파악하는 방식을 통해, AI가 생명의 설계도를 '읽는' 법을 배우기 시작했음을 알 수 있었습니다.

2025.07.19 - [Omics] - 인공지능, 생명의 설계도를 읽다: 유전자 발현 예측의 서막

 

인공지능, 생명의 설계도를 읽다: 유전자 발현 예측의 서막

들어가며: 우리 몸속 거대한 오케스트라우리 몸을 하나의 거대한 오케스트라에 비유해 봅시다. 수십조 개의 세포라는 연주자들이 각자 다른 악기(단백질)를 연주하며 생명이라는 장엄한 교향곡

zinomi-day.com

 

하지만 세상에서 가장 뛰어난 학생이라도 부실한 교재로는 좋은 성적을 낼 수 없습니다. 딥러닝 모델도 마찬가지입니다. 모델의 성능은 전적으로 훈련 데이터의 양과 질에 달려있습니다. S2E 모델을 '생물학의 대가'로 키우기 위해, 과학자들은 어떤 종류의 데이터를 '교과서'로 사용하는 걸까요?

오늘은 S2E 모델을 훈련시키는 다양한 데이터의 종류를 살펴보고, 하나의 교과서만 파는 것보다 여러 과목을 동시에 가르칠 때 더 똑똑해지는 '멀티태스크 학습'의 개념, 그리고 AI를 위한 맞춤형 '실전 모의고사'인 MPRA 기술까지 깊이 있게 탐구해보겠습니다.

 

1. AI의 교과서: 다양한 유전자 활동 측정 데이터

S2E 모델의 목표는 'DNA 서열'을 보고 '유전자 발현'을 맞추는 것입니다. 따라서 훈련 데이터는 기본적으로 [DNA 서열, 그 서열의 활동 측정값] 쌍으로 구성됩니다. 이 '활동 측정값'을 얻기 위해 과학자들은 다양한 실험 기법을 사용합니다.

시퀀싱

가. 후성유전체 지도 (Epigenome Maps): 유전자 활동의 간접적인 단서들

유전자가 발현되려면 먼저 DNA가 들어있는 염색질(chromatin)의 구조가 물리적으로 열려야 하고, 그곳에 전사 인자들이 결합해야 합니다. 후성유전체 데이터는 이러한 간접적인 활동의 증거를 제공합니다.

  • ChIP-seq (염색질 면역침강 시퀀싱): 특정 단백질(주로 전사 인자)이 DNA의 어느 위치에 결합하는지를 알려주는 '족보'와 같습니다. 특정 전사 인자에 대한 항체를 이용해 해당 단백질과 결합한 DNA 조각만 골라낸 뒤 염기서열을 분석합니다. 이를 통해 "A라는 전사 인자는 이 DNA 위치에 붙는구나"라는 정보를 얻을 수 있습니다.
  • DNase-seq / ATAC-seq: 염색질이 얼마나 '열려' 있는지를 보여주는 지도입니다. DNA를 자르는 효소(DNase)나 전이효소(transposase)를 처리했을 때, 염색질이 열려 있는 부분은 쉽게 잘리거나 표지됩니다. 이 부분들을 분석하면 유전자 발현이 활발할 것으로 예상되는 '활성 조절 부위'를 찾아낼 수 있습니다.
  • 히스톤 변형 ChIP-seq: DNA가 감싸고 있는 히스톤 단백질의 특정 부위에 화학적 변형(메틸화, 아세틸화 등)이 일어나면 유전자 발현이 조절됩니다. 예를 들어, H3K27ac라는 히스톤 아세틸화는 활성 인핸서와 프로모터의 대표적인 표지입니다. ChIP-seq 기술을 이용해 이런 특정 히스톤 변형이 일어난 위치를 찾아내면, 유전자 활동 지역을 예측하는 데 중요한 단서가 됩니다.

나. 유전자 발현 측정 데이터: 직접적인 결과물

  • RNA-seq: 세포 안에 있는 모든 RNA를 분석하여 어떤 유전자가 얼마나 많이 전사되었는지 직접적으로 측정하는 가장 확실한 방법입니다. 최종 '성적표'에 해당하는 데이터라고 할 수 있죠.
  • 5' mRNA-seq (GRO-cap 등): RNA-seq가 최종 생산된 RNA의 양을 측정한다면, 이 기술들은 '전사가 막 시작되는' RNA의 5' 말단을 포착합니다. 이를 통해 프로모터가 얼마나 활발하게 전사를 '개시'하는지에 대한 더 정밀한 정보를 얻을 수 있습니다.

 

2. 멀티태스크 학습: 여러 과목을 동시에 배워 시너지 창출

만약 학생에게 국어, 영어, 사회 교과서를 따로따로 주고 각 과목만 공부하게 하는 대신, 세 과목을 융합하여 "셰익스피어 시대 영국의 사회상" 같은 주제를 탐구하게 한다면 어떨까요? 학생은 각 분야의 지식이 어떻게 연결되는지 배우며 더 깊은 통찰력을 얻게 될 것입니다.

멀티태스크 학습(Multitask Learning)이 바로 이런 접근 방식입니다. 하나의 S2E 모델에게 단 하나의 목표(예: RNA-seq 예측)만 주는 것이 아니라, 여러 종류의 데이터(ChIP-seq, ATAC-seq, RNA-seq 등)를 동시에 예측하도록 훈련시키는 것입니다.

멀티태스크 학습

  • 왜 효과적인가? 이 데이터들은 서로 깊이 연관되어 있습니다. DNA 서열이 염색질의 열림(ATAC-seq)을 결정하고, 열린 염색질에 전사 인자가 결합하며(ChIP-seq), 그 결과로 전사가 일어나(RNA-seq)는 인과 관계가 존재합니다. 모델이 이 모든 것을 함께 예측하도록 학습하면, 데이터에 공통적으로 존재하는 근본적인 '조절 문법'을 더 효과적으로 배울 수 있습니다.
  • 장점: 멀티태스크 학습을 통해 훈련된 모델(예: Enformer)은 단일 과제만 학습한 모델보다 일반적으로 더 높은 예측 정확도를 보이며, 하나의 모델로 다양한 후성유전체 현상을 설명할 수 있는 강력한 통합 모델이 됩니다.

 

3. MPRA: AI를 위한 맞춤형 '실전 모의고사'

지금까지 소개한 데이터들은 모두 우리 몸속에 존재하는 '자연 상태'의 DNA에서 얻은 것입니다. 이는 마치 기출문제집과 같아서 매우 중요하지만, 특정 유형의 문제만 반복되거나 우리가 궁금해하는 유형의 문제가 아예 없을 수도 있습니다.

이 한계를 극복하기 위해 과학자들은 MPRA(Massively Parallel Reporter Assay) 라는 기발한 기술을 개발했습니다. 이는 수천에서 수백만 개의 DNA 조각을 인공적으로 합성하거나 잘라내어, 각 조각이 얼마나 유전자를 발현시키는 능력이 있는지 '대규모로, 병렬적으로' 테스트하는 실험입니다.

  1. DNA 라이브러리 제작: 테스트하고 싶은 수많은 DNA 서열(게놈 DNA 조각, 인공 합성 서열 등)을 준비합니다.
  2. 리포터 벡터 삽입: 이 DNA 서열들을 '리포터 유전자'라는 측정용 유전자 앞에 각각 붙여 수많은 종류의 테스트 벡터를 만듭니다.
  3. 세포 주입 및 발현 측정: 이 벡터들을 세포에 넣으면, 테스트 DNA 서열이 인핸서나 프로모터 활성을 가질 경우 리포터 유전자를 발현시킵니다. 얼마나 많은 리포터 RNA가 만들어졌는지를 측정하면, 각 DNA 서열의 활성도를 정확한 수치로 알 수 있습니다.

MPRA 데이터는 S2E 모델에게 최고의 '맞춤형 실전 모의고사'입니다. 기출문제(자연 게놈)에서는 볼 수 없었던 다양한 변형 문제, 심지어는 완전히 새로운 유형의 문제(랜덤 서열)를 제공하여 AI가 정말로 DNA 문법의 근본 원리를 이해했는지 검증하고 훈련시킬 수 있습니다.

랜덤 서열 학습

 

2편을 마치며: 똑똑해진 AI, 이제 무엇을 할 수 있나?

오늘은 S2E 모델을 훈련시키는 다양한 종류의 '교과서'와 '모의고사'에 대해 알아보았습니다. 후성유전체 지도부터 직접적인 RNA 측정, 그리고 맞춤형 MPRA 데이터까지, 방대한 양의 고품질 데이터가 AI를 점점 더 정교하게 만들고 있습니다.

이렇게 똑똑해진 AI는 이제 단순히 예측만 하는 '점쟁이'에 머무르지 않습니다. 우리는 AI에게 "왜 그렇게 예측했니?"라고 물어봄으로써, 그동안 베일에 싸여 있던 생명의 조절 원리를 역으로 파헤칠 수 있습니다. 이것이 바로 '블랙박스 열기(Opening the black box)'입니다.

다음 마지막 3편에서는, 잘 훈련된 S2E 모델을 활용하여 유전 변이의 질병 위험도를 예측하고, 심지어 세상에 없던 새로운 기능의 DNA를 설계하는 등, 이 기술이 어떻게 현실 세계의 문제를 해결하고 미래 생명공학의 지형을 바꾸고 있는지 그 무한한 가능성을 탐험해 보겠습니다.

 

관련글 더보기