지난 1, 2편에 걸쳐 우리는 인공지능이 DNA 서열을 읽어 유전자 발현을 예측하는 S2E 모델의 원리와, 이 모델을 훈련시키는 다양한 데이터에 대해 알아보았습니다. 이제 우리 손에는 방대한 생물학 데이터로 똑똑하게 훈련된 강력한 AI 모델이 쥐어져 있습니다. 하지만 이 AI가 그저 정답만 맞히는 '블랙박스'라면 그 가치는 절반에 불과할 것입니다. 진정한 혁신은 그 블랙박스를 열어 AI가 '어떻게' 그런 결론에 도달했는지, 즉 생명의 조절 문법 그 자체를 이해하는 데서 시작됩니다.
2025.07.19 - [Omics] - 인공지능, 생명의 설계도를 읽다: 유전자 발현 예측의 서막
인공지능, 생명의 설계도를 읽다: 유전자 발현 예측의 서막
들어가며: 우리 몸속 거대한 오케스트라우리 몸을 하나의 거대한 오케스트라에 비유해 봅시다. 수십조 개의 세포라는 연주자들이 각자 다른 악기(단백질)를 연주하며 생명이라는 장엄한 교향곡
zinomi-day.com
2025.07.19 - [Omics] - 인공지능의 교과서: 무엇으로 생명의 비밀을 가르치는가?
인공지능의 교과서: 무엇으로 생명의 비밀을 가르치는가?
들어가며: AI에게 필요한 최고의 교재지난 1편에서는 딥러닝이 DNA 서열을 직접 읽어 유전자 발현을 예측하는 'S2E 모델'의 기본 원리를 살펴보았습니다. CNN이 짧은 패턴(모티프)을 찾고, 트랜스포
zinomi-day.com
오늘은 이 시리즈의 마지막 편으로, 과학자들이 어떻게 S2E 모델이라는 블랙박스를 열어 그 내부를 들여다보는지, 그리고 이를 통해 얻은 지식으로 어떻게 질병의 원인을 찾고, 세상에 없던 DNA를 설계하며 생명과학의 미래를 바꾸고 있는지 그 놀라운 응용 사례들을 살펴보겠습니다.
잘 훈련된 S2E 모델은 DNA 서열을 보고 유전자 발현량을 정확하게 예측합니다. 그렇다면 모델은 서열의 '어떤 부분'을 '왜' 중요하게 본 것일까요? 과학자들은 여러 기법을 통해 AI의 '생각'을 읽어냅니다.
가장 직관적인 방법입니다. '인 실리코(in silico)'는 '컴퓨터 안에서'라는 뜻으로, 실제 실험 대신 컴퓨터 시뮬레이션으로 실험하는 것을 말합니다.
ISM이 수많은 예측을 통해 중요도를 계산한다면, 어트리뷰션 기법은 단 한 번의 계산으로 각 염기가 예측에 얼마나 기여했는지를 보여주는 '중요도 지도'를 그려냅니다. 모델의 내부 연산 과정(그래디언트 등)을 역추적하여, 어떤 입력(염기)이 최종 출력(발현량)에 가장 큰 영향을 미쳤는지 계산하는 방식입니다. 이 지도를 보면 마치 형광펜으로 칠한 것처럼 중요한 모티프나 조절 부위가 한눈에 드러납니다.
이러한 해석 기법들을 통해 우리는 더 이상 "이 서열에 TATA 박스가 있다"는 수준을 넘어, "이 특정 맥락에서는 TATA 박스가 기능적으로 매우 중요하다" 혹은 "이 변이는 핵심 모티프를 망가뜨려 발현을 감소시킨다"와 같은 정교한 통찰을 얻게 됩니다.
이렇게 AI의 생각까지 읽을 수 있게 된 과학자들은 S2E 모델을 어디에 활용하고 있을까요? 그 응용 분야는 실로 놀랍습니다.
인간 게놈의 98% 이상은 단백질을 만들지 않는 '비암호화(non-coding)' 영역입니다. 과거 '정크 DNA'로 불리기도 했던 이 영역에 수많은 유전자 조절 부위가 숨어있다는 사실이 밝혀졌죠. GWAS(전장 유전체 연관 분석) 연구를 통해 수많은 질병과 관련된 유전 변이들이 바로 이 비암호화 영역에서 발견됩니다.
하지만 어떤 변이가 진짜 원인(causal variant)인지 가려내는 것은 매우 어렵습니다. 이때 S2E 모델이 강력한 도구가 됩니다.
S2E 모델의 능력을 시험하는 궁극적인 테스트는 '예측'을 넘어 '창조'로 나아가는 것입니다. 즉, 우리가 원하는 기능을 가진 DNA 서열을 세상에 없던 조합으로 새롭게 설계하는 것입니다.
지난 세 편의 글을 통해 우리는 S2E 모델이 생명과학 연구의 패러다임을 어떻게 바꾸고 있는지 살펴보았습니다. 딥러닝은 복잡한 유전자 조절의 암호를 해독하는 강력한 도구임을 입증했고, 질병의 원인을 규명하고 새로운 생명공학 기술을 창조하는 무한한 가능성을 열어주었습니다.
물론 아직 가야 할 길은 멉니다. 논문에서도 지적하듯, 현재 모델들은 훈련 데이터에 없었던 새로운 세포 유형에 대한 예측에는 여전히 어려움을 겪으며, 때로는 실제와 다른 예측(환각, hallucination)을 하기도 합니다. 또한, 인간 게놈 한 명 한 명에 최적화된 '개인화 S2E 모델'을 구축하고, DNA 서열뿐만 아니라 세포 내 전사 인자의 양과 활성 상태까지 통합하는 진정한 의미의 종합 모델을 만드는 것은 미래의 큰 과제입니다.
하지만 분명한 것은, 생물학과 인공지능의 만남이 이제 막 위대한 여정의 첫발을 떼었다는 사실입니다. AI는 생명의 설계도를 더 깊이 이해하게 해줄 가장 강력한 현미경이자, 우리가 상상하는 생명을 현실로 만들어낼 가장 정교한 조각칼이 될 것입니다. DNA 염기서열 네 글자, A, C, G, T 속에 숨겨진 무한한 우주를 탐험하는 이 위대한 여정에 앞으로도 많은 관심과 기대를 가져주시길 바랍니다.
인공지능의 교과서: 무엇으로 생명의 비밀을 가르치는가? (0) | 2025.07.19 |
---|---|
인공지능, 생명의 설계도를 읽다: 유전자 발현 예측의 서막 (0) | 2025.07.19 |
Drug target Mendelian Randomization (0) | 2025.04.12 |
Mendelian Randomization의 나아가야 할 방향에 대하여 (0) | 2025.04.12 |
Single-cell RNA-seq (0) | 2025.04.12 |