우리 몸을 하나의 거대한 오케스트라에 비유해 봅시다. 수십조 개의 세포라는 연주자들이 각자 다른 악기(단백질)를 연주하며 생명이라는 장엄한 교향곡을 만들어냅니다. 그런데 이 연주자들은 언제, 어디서, 어떤 곡을, 얼마나 큰 소리로 연주해야 할까요? 이 모든 것을 지휘하는 것은 바로 우리 DNA에 담긴 '유전자'라는 악보입니다.
하지만 이 악보는 단순히 음표(유전자의 염기서열)만 적힌 것이 아닙니다. 악보 곳곳에는 "여기서부터 강하게(forte)", "점점 여리게(decrescendo)", "이 부분은 특정 악기만 연주하시오"와 같은 수많은 지시사항이 숨어 있습니다. 생물학에서 이러한 지시사항을 '유전자 조절'이라고 부르며, 이 조절의 결과로 나타나는 연주 소리의 크기를 '유전자 발현'이라고 합니다.
과거 과학자들은 DNA 서열만 읽으면 생명의 모든 비밀을 풀 수 있을 것이라 기대했습니다. 하지만 곧 깨달았죠. 유전자라는 '단어'를 아는 것과, 그 단어들이 모여 만들어내는 '이야기'의 뉘앙스를 이해하는 것은 전혀 다른 차원의 문제라는 것을요. 특히, 유전자를 둘러싼 프로모터(promoter), 인핸서(enhancer) 같은 조절 부위와 수많은 전사 인자(transcription factor)들이 엮어내는 복잡한 상호작용은 마치 수백 명의 지휘자가 동시에 각기 다른 신호를 보내는 것과 같아 그 규칙을 파악하기가 지극히 어려웠습니다.
이 거대한 난제에 최근 강력한 해결사가 등장했습니다. 바로 딥러닝(Deep Learning) 입니다. 3편에 걸쳐, 인공지능이 어떻게 DNA라는 생명의 암호를 해독하여 유전자 발현을 예측하고, 이를 통해 질병 진단과 신약 개발의 새로운 지평을 열고 있는지 깊이 있게 파헤쳐 보겠습니다.
과학자들이 딥러닝을 이용해 도전하는 이 분야를 'S2E(Sequence-to-Expression)' 모델링이라고 부릅니다. 말 그대로, 오직 DNA '서열(Sequence)' 정보만을 입력받아 특정 세포나 조건에서 유전자가 얼마나 '발현(Expression)' 될지를 예측하는 모델을 만드는 것입니다.
이는 기존의 기계학습 방법론과는 근본적인 차이가 있습니다. 전통적인 방법들은 'k-mer(특정 길이 k의 DNA 조각) 개수 세기'처럼 사람이 미리 가공한 특징(feature)을 모델에 입력했습니다. 이는 마치 책의 내용을 이해하기 위해 '사랑'이라는 단어가 몇 번 나왔는지, '전쟁'이라는 단어가 몇 번 나왔는지만 세는 것과 같습니다. 단어의 등장 빈도는 알 수 있지만, "네가 없는 사랑은 내게 전쟁과도 같았다"와 같은 문장의 미묘한 의미와 문맥, 단어의 위치 정보는 모두 잃어버리게 됩니다.
반면, 딥러닝 S2E 모델은 가공되지 않은 순수한 DNA 염기서열 자체를 입력받습니다. 그리고 모델 스스로 데이터 속에서 복잡하고, 계층적이며, 비선형적인 패턴을 학습합니다. 이는 마치 AI가 수많은 문장을 통째로 읽으며 단어의 의미뿐만 아니라 문법, 단어 간의 거리, 문맥에 따른 뉘앙스까지 스스로 터득하는 것과 같습니다.
S2E 모델이 DNA 서열을 '읽고' 이해하기 위해 사용하는 대표적인 딥러닝 아키텍처는 두 가지입니다. 바로 합성곱 신경망(Convolutional Neural Networks, CNN)과 트랜스포머(Transformers)입니다.
CNN은 원래 이미지 인식 분야에서 혁명을 일으킨 기술입니다. 이미지의 작은 부분(픽셀 그룹)에서 특징(선, 모서리 등)을 찾아내고, 이 작은 특징들을 조합해 더 큰 특징(눈, 코, 입)을 인식하며, 최종적으로 전체 이미지(얼굴)를 이해하는 방식이죠.
S2E 모델에서 CNN은 DNA 서열을 일종의 1차원 이미지로 간주합니다.
CNN은 국소적인 패턴을 찾는 데 매우 뛰어나지만, 한계도 명확합니다. 인핸서는 때로 수십만 염기쌍(kilobases, kb) 떨어진 곳에서 프로모터를 조절하는데, CNN이 이렇게 멀리 떨어진 요소들 간의 '원거리 상호작용'을 포착하기는 매우 비효율적입니다.
이때 등장한 것이 바로 챗GPT를 탄생시킨 주역, 트랜스포머입니다. 트랜스포머의 핵심은 '셀프-어텐션(self-attention)' 메커니즘입니다. 문장 속 한 단어의 의미를 파악하기 위해 다른 모든 단어에 '주의(attention)'를 기울여 어떤 단어가 가장 중요한지 가중치를 부여하는 방식입니다. "The animal didn't cross the street because it was too tired." 라는 문장에서 'it'이 'animal'을 가리키는지 'street'를 가리키는지 맥락을 통해 정확히 파악하는 능력의 핵심이죠.
S2E 모델에서 트랜스포머는 이 능력을 DNA 서열에 적용합니다.
지금까지 우리는 유전자 발현 예측이라는 거대한 과제와, 이를 해결하기 위한 딥러닝 S2E 모델의 기본 원리에 대해 알아보았습니다. CNN이라는 패턴 탐지기와 트랜스포머라는 맥락의 마법사가 어떻게 DNA 서열을 읽어내는지 살펴보았죠.
하지만 모델을 똑똑하게 만들려면 훌륭한 교재와 선생님이 필요한 법입니다. 인공지능에게는 이 '교재'가 바로 훈련 데이터(training data) 입니다. 다음 2편에서는 이 S2E 모델을 훈련시키기 위해 과학자들이 어떤 종류의 데이터를 사용하는지, 그리고 단일 과제가 아닌 여러 과제를 동시에 학습시키는 '멀티태스크 학습'과 같은 고도화된 전략은 무엇인지 자세히 알아보겠습니다. 인공지능은 과연 어떤 '교과서'로 생명의 비밀을 배우는 걸까요? 다음 편에서 그 비밀의 문을 열어보겠습니다.
AI, 생명의 암호를 넘어 미래를 설계하다 (0) | 2025.07.19 |
---|---|
인공지능의 교과서: 무엇으로 생명의 비밀을 가르치는가? (0) | 2025.07.19 |
Drug target Mendelian Randomization (0) | 2025.04.12 |
Mendelian Randomization의 나아가야 할 방향에 대하여 (0) | 2025.04.12 |
Single-cell RNA-seq (0) | 2025.04.12 |