신테카바이오(대표이사 정종선)가 업계 최초로 자사의 AI 신약개발 플랫폼에 초거대 언어모델 GPT 기술을 적용한 신약 후보물질 발굴에 나선다.
신테카바이오는 AI 합성신약 후보물질 플랫폼 딥매처에 GPT를 적용하기 위한 기술검증을 성공적으로 마쳤다고 28일 밝혔다.
딥매처는 3단계 과정(선행 스크리닝→심층학습 포즈 생성→분자동역학 시뮬레이션)을 거쳐 신약 후보물질을 도출한다. GPT는 선행 스크리닝 과정에 적용돼 후보물질 발굴 성능을 더욱 높일 것으로 보인다.
이번 PoC의 궁극적인 목적은 3D 단백질-리간드 상호작용을 언어로 변환해 GPT 언어모델로 학습했을 때 얻을 수 있는 장점을 확인하는 것이다. 이를 위해 신테카바이오는 5000만개의 3차원 구조 상호작용 빅데이터를 언어로 변환하고 미국 세레브라스 사의 웨이퍼 스케일 CS2 장비를 이용해 GPT를 만들었다. 성능 비교를 위해 한국정보통신산업진흥원 고성능 AI 지원사업의 자원인 네이버 클라우드, Tesla V100, 80 TF와 700만개의 데이터로 GPT를 추가로 만들어 비교했다. 언어모델 학습 후에는 t-SNE(비선형적인 차원 축소 방법) 및 히트맵 분석을 통해 검증을 수행했다.
검증 결과 단백질이나 리간드 중심의 클러스터 형성은 중요한 단백질-리간드의 상호작용을 이해하고 학습하는 모델의 성능을 확인시켜 줬다. 학습된 모델을 기반으로 방대한 수의 약물후보를 효과적으로 선행 스크리닝하고 새롭고 유의미한 상호작용을 생성할 수 있다는 결론이 나왔다.
신테카바이오는 현재 약 5000만개에 달하는 3D단백질-화학 결합 정보 등 GPT 학습을 위한 방대한 양의 데이터를 보유하고 있다. GPT 적용을 통해 이러한 상호작용 결합 정보를 계속 축적할 계획이다.
신테카바이오 관계자는 “신약개발 부문에 AI를 적용하려면 AI가 학습할 수 있는 로직과 축적된 데이터가 가장 중요한데 당사는 이미 데이터와 인프라, AI 플랫폼까지 준비된 상태”라며 “슈퍼컴센터 완공 후 슈퍼컴 인프라 확충까지 이뤄지면 그 시너지는 더욱 높아질 것"이라고 밝혔다.