머리말
이러한 상황에서 2020년 구글 딥마인드가 발표한 알파폴드2는 딥러닝을 통해 이 문제를 전례 없는 정확도로 해결하며 해당 분야의 패러다임을 전환시켰다. 본 보고서는 알파폴드2의 기술적 근간을 이루는 딥러닝 아키텍처를 세부적으로 분석하여, 그 성공 요인을 규명하는 데 중점을 둔다.
알파폴드2 아키텍처의 핵심 구성요소
알파폴드2의 시스템은 입력된 아미노산 서열로부터 3차원 구조를 예측하기까지, 여러 독창적인 모듈이 유기적으로 연동되는 파이프라인으로 구성된다.
다중 서열 정렬 (Multiple Sequence Alignment, MSA)
알파폴드2는 단일 아미노산 서열이 아닌, 방대한 유전체 데이터베이스 검색을 통해 확보한 수천 개의 유사 서열 묶음, 즉 MSA를 주된 입력으로 활용한다. 이는 진화 과정에서 특정 위치의 아미노산이 변이될 때, 다른 위치의 아미노산도 함께 변이되는 '공진화(Co-evolution)' 정보를 포착하기 위함이다. 공진화 관계에 있는 아미노산 쌍은 3차원 구조상에서 물리적으로 근접할 확률이 높기 때문에, 이는 구조 예측의 결정적인 단서로 작용한다.
이보포머 (Evoformer): 그래프 기반 추론 엔진
이보포머는 MSA 정보로부터 구조적 단서를 추론하는 알파폴드2의 핵심 엔진이다. 이 모듈은 두 종류의 정보를 병렬적으로 처리하고 상호작용시키며 반복적으로 정교화한다.
MSA 표현 (1D 정보): MSA 내 아미노산 서열 간의 관계를 나타낸다.
쌍 표현 (Pair Representation, 2D 정보): 아미노산 쌍(i, j) 사이의 거리 및 방향과 같은 기하학적 관계를 행렬 형태로 나타낸다. 이는 사실상 그래프의 인접 행렬과 유사한 역할을 수행한다.
이보포머 내부에서는 트랜스포머의 어텐션(Attention) 메커니즘이 MSA와 쌍 표현 사이의 정보 교환을 촉진한다. 즉, 서열의 공진화 정보가 두 아미노산이 가까울 것이라는 구조 정보를 강화하고, 역으로 특정 아미노산 쌍이 가깝다는 정보가 MSA 내의 관계를 재해석하는 데 도움을 준다. 이 과정이 수십 개의 이보포머 블록을 거치며 반복되어, 구조에 대한 예측은 점차 명확해진다.
구조 모듈 (Structure Module): 3차원 좌표 생성
이보포머를 통해 최종적으로 정제된 쌍 표현 행렬은 각 아미노산 쌍의 기하학적 관계에 대한 신뢰도 높은 지도로 볼 수 있다. 구조 모듈은 이 지도를 바탕으로 각 아미노산을 하나의 강체(rigid body)로 간주하고, 이들의 3차원 공간상 위치(회전 및 변환)를 직접적으로 예측한다. 이 과정에서는 '불변점 어텐션(IPA)'이라는 특수 메커니즘을 사용하여, 예측된 단백질 전체가 회전하거나 이동하더라도 내부의 상대적인 구조는 변하지 않는 물리적 일관성을 보장한다.
GNN과 트랜스포머 관점에서의 아키텍처 융합
알파폴드의 핵심적인 혁신은 GNN의 관계형 추론 프레임워크와 트랜스포머의 강력한 정보 교환 방식을 3차원 공간 문제에 맞게 융합한 데 있다.
GNN 프레임워크: 알파폴드는 단백질을 아미노산(노드)과 이들 간의 상호작용(엣지)으로 구성된 완전 연결 그래프(Fully Connected Graph)로 간주한다. 쌍 표현(Pair Representation)은 이 그래프의 엣지 가중치를 동적으로 학습하는 역할을 수행한다.
트랜스포머의 어텐션 메커니즘: 알파폴드는 GNN의 메시지 전달 과정을 트랜스포머의 어텐션으로 구현한다. 일반적인 GNN이 1홉(hop) 이웃의 정보만 취합하는 것과 달리, 어텐션은 모든 노드가 다른 모든 노드와 직접적으로 정보를 교환하도록 한다. 이를 통해 모델은 어떤 노드의 정보를 더 중요하게 참고할지(Attention Score)를 학습하여 전역적인 문맥을 효과적으로 파악한다. 이보포머 블록을 반복하는 것은 GNN 레이어를 여러 겹 쌓는 것과 동일한 효과를 낸다.
3차원 공간 정보의 직접적 활용: 전통적인 GNN이 추상적인 연결성을 다루는 반면, 알파폴드의 구조 모듈은 3차원 공간에서의 회전과 변환이라는 기하학적 특징을 직접적으로 다룬다. '불변점 어텐션(IPA)'은 이러한 3차원 변환에도 예측의 일관성을 유지하게 하는 핵심 장치로, 이는 GNN이 실제 물리 공간의 제약을 학습하도록 진화한 형태로 볼 수 있다.
알파폴드의 역할을 정확히 이해하기 위해서는 예측 목표가 단백질의 '기능'이 아닌 '구조'라는 점을 명확히 해야 한다.
알파폴드는 특정 단백질이 어떤 역할을 수행하는지(예: '신호 전달')를 직접 분류하는 기능 예측 모델이 아니다. 대신, 해당 단백질을 구성하는 모든 원자의 3차원 공간 좌표(x, y, z)를 예측하여 물리적인 형태(Shape)를 알아내는 구조 예측 모델이다.
구조 예측이 생명과학에서 결정적으로 중요한 이유는 "구조가 기능을 결정한다(Structure Dictates Function)"는 근본 원리 때문이다. 특정 효소 단백질이 화학 반응을 촉진하는 기능은, 그 표면에 특정 분자만 결합할 수 있는 고유한 3차원 홈(활성 부위)이라는 구조를 가지고 있기 때문에 가능하다. 따라서 정확한 3차원 구조 정보는 단백질의 기능을 이해하고 제어하기 위한 가장 필수적인 전제 조건이다.
결론적으로, 알파폴드는 기능이라는 최종 목적지를 향한 여정에서 가장 어렵고 중요한 첫 관문인 '3차원 구조 설계도'를 제공하는 역할을 수행한다.
알파폴드의 3차원 공간 좌표 표현 및 정규화 방식
이 장은 딥마인드(DeepMind)의 단백질 구조 예측 모델 알파폴드(AlphaFold)가 3차원 공간 좌표를 어떻게 표현하고 예측하는지에 대한 기술적 원리를 분석하는 것을 목적으로 한다. 단백질의 3차원 구조는 전체적인 회전(Rotation) 및 이동(Translation) 변환에 대해 불변(Invariant)하는 특성을 가지므로, 절대적인 전역 좌표(Global Coordinates)를 직접 예측하는 방식은 학습에 본질적인 한계를 가진다. 본 보고서는 알파폴드가 이 문제를 해결하기 위해 도입한 지역 좌표계(Local Frame)와 상대적 변환(Relative Transformation) 기반의 독창적인 접근법을 상세히 기술한다.
문제 정의: 전역 좌표계 방식의 한계
기존의 딥러닝 모델이 3차원 객체의 구조를 예측할 때, 각 구성 요소의 절대적인 (x, y, z) 좌표를 직접 출력하도록 설계하는 것은 일반적이다. 그러나 이 방식은 단백질 구조 예측에 다음과 같은 심각한 문제를 야기한다.
- SE(3) 등변성(Equivariance) 위배: 단백질의 기능과 구조적 본질은 분자 전체가 3차원 공간상에서 회전하거나 이동해도 변하지 않는다. 하지만 절대 좌표 값은 이러한 변환에 따라 완전히 달라진다.
- 학습의 비효율성: 모델은 동일한 구조에 대해서도 무한히 많은 정답(좌표 값)을 학습해야 하므로, 데이터의 복잡성이 기하급수적으로 증가하여 안정적인 학습이 거의 불가능하다.
결론적으로, 전역 좌표계는 단백질 구조의 내재적 특성을 표현하기에 부적합하며, 이를 직접 예측하는 것은 비효율적이고 불안정한 접근법이다.
알파폴드의 해결책: 지역 좌표계와 상대적 변환 예측
알파폴드는 전역 좌표 문제를 해결하기 위해, 예측 대상을 '절대 위치'에서 '상대적 관계'로 변환하였다. 이 접근법은 다음 세 단계로 구성된다.
1단계: 각 아미노산 잔기에 지역 좌표계(Local Frame) 설정
알파폴드는 단백질을 구성하는 모든 아미노산 잔기(residue)마다 고유한 지역 좌표계를 설정한다. 이 좌표계는 각 잔기의 뼈대(backbone)를 구성하는 3개의 원자(N, Cα, C')를 기준으로 정의된다.
- 원점 (Origin): 알파탄소(Cα)
- 축 (Axes): Cα, N, C' 원자들의 상대적 위치 벡터를 기반으로 직교 좌표계(x, y, z축)를 생성한다.
이 방식을 통해 단백질 전체의 위치와 상관없이, 각 아미노산은 자신만의 독립적인 기준 좌표계를 갖게 된다.
2단계: 좌표계 간의 상대적 변환(Transformation) 예측
알파폴드 모델의 최종 단계인 '구조 모듈(Structure Module)'은 절대 좌표를 직접 예측하지 않는다. 대신, i번째 아미노산의 지역 좌표계에서 i+1번째 아미노산의 지역 좌표계로 변환하기 위해 필요한 회전(Rotation)과 이동(Translation) 값을 예측한다.
- 회전: 3x3 회전 행렬 (Rotation Matrix)
- 이동: 3차원 이동 벡터 (Translation Vector)
이 상대적 변환 값은 단백질 전체의 위치나 방향과 무관하게 항상 일정하므로, 모델은 구조의 본질적인 기하학적 관계만을 학습하게 된다.
3단계: 예측된 변환을 통한 전체 구조 조립
모든 잔기 쌍에 대한 상대적 변환 값이 예측되면, 이를 순차적으로 적용하여 전체 3차원 구조를 조립한다.
첫 번째 아미노산의 지역 좌표계를 공간의 원점에 배치한다.
예측된 첫 번째 변환(회전/이동)을 적용하여 두 번째 아미노산의 위치와 방향을 계산한다.
이 과정을 단백질 서열의 마지막 잔기까지 반복하여 모든 뼈대 원자의 3차원 좌표를 최종적으로 결정한다.
결론적으로, 알파폴드의 혁신은 3차원 공간 좌표라는 결과물을 직접 예측하는 대신, 문제를 지역 좌표계 간의 기하학적 관계로 재정의한 데에 있다. 이는 3D 구조 예측 문제에서 딥러닝 모델이 가져야 할 회전/이동 불변성(등변성)을 확보하는 표준적인 해법을 제시했으며, 알파폴드가 전례 없는 정확도를 달성할 수 있었던 가장 핵심적인 기술적 토대이다.
알파폴드2의 성공은 단일한 혁신이 아닌 여러 핵심 기술의 유기적인 결합에 기인한다. 그 핵심은 (1) 진화적 정보(MSA)를 초기 단서로 활용하고, (2) GNN의 프레임워크 위에서 트랜스포머의 어텐션 메커니즘을 통해 관계를 추론하며, (3) 최종적으로 3차원 공간의 물리적 제약을 만족하는 구조를 생성하는 정교한 파이프라인을 구축한 데 있다.
특히, 아미노산을 노드로, 상호작용을 엣지로 간주하는 그래프적 접근 방식은 단백질 접힘 문제를 관계형 추론 문제로 재정의하였으며, 이는 GNN과 트랜스포머 모델이 융합될 때 복잡한 과학적 시스템을 얼마나 효과적으로 모델링할 수 있는지를 입증하는 대표적인 사례이다. 알파폴드2의 등장은 단백질 구조 생물학 연구를 가속화했을 뿐만 아니라, 향후 신약 개발 및 질병 연구에 있어 AI 기반의 과학적 발견이 핵심적인 역할을 수행할 것임을 시사한다.