(왼쪽부터) KAIST 생명화학공학과 권문수 박사과정, 이준규 박사과정, 김현욱 교수
(왼쪽부터) KAIST 생명화학공학과 권문수 박사과정, 이준규 박사과정, 김현욱 교수

[기계신문] 생명공학, 대사공학 및 합성생물학 등 바이오 분야 문헌에는 바이오 경로 이미지들을 흔히 제시하는데, 여기에는 한 연구에서 새로이 발견한 유전자, 효소 및 대사물질 등 생명체의 분자적 과정을 시각적으로 표현하는 데 사용되어 왔다. 이러한 바이오 경로 정보는 한 생명공학 연구의 전반적인 내용을 파악함에 있어서 유용하게 활용된다.

그러나 바이오 경로 정보는 대부분 이미지로 표현되기 때문에, 해당 이미지를 자동으로 처리하여 구조화된 데이터로 변환하는 것은 기술적으로 어려운 과제이다. 텍스트 데이터와 달리, 이미지 데이터는 다양한 형식과 복잡성을 띠고 있어 일관된 방식으로 정보를 추출하기 어려운 문제가 있다.

이런 가운데 KAIST 연구진이 바이오 경로 정보를 자동으로 추출할 수 있는 인공지능 프레임워크를 개발해 화제다.

KAIST는 생명화학공학과 김현욱 교수 연구팀이 바이오 경로 이미지에서 유전자와 대사물질 정보를 자동으로 추출하는 기계학습 기반의 ‘바이오 경로 정보 추출 프레임워크(EBPI, Extraction of Biological Pathway Information)’를 개발했다고 28일 밝혔다.

바이오 경로 이미지에서 생화학 반응 정보를 자동으로 추출하는 EBPI의 모식도
바이오 경로 이미지에서 생화학 반응 정보를 자동으로 추출하는 EBPI의 모식도

연구팀이 개발한 EBPI는 문헌에서 추출한 이미지 속의 화살표와 텍스트를 인식하고, 이를 기반으로 바이오 경로를 편집 가능한 표의 형태로 재구성한다.

객체 감지 모델 등의 기계학습을 사용해 경로 이미지 내 화살표 위치와 방향을 감지하고, 이미지 속 텍스트를 유전자, 단백질, 대사물질로 분류한다. 그 후 추출된 정보를 통합해 경로 정보를 표 형식으로 제공한다.

연구팀은 74,853편의 논문에서 추출한 바이오 경로 이미지와 기존 수작업으로 작성된 경로 지도를 비교하며 EBPI의 성능을 검증했다. 그 결과, 높은 정확도로 바이오 경로 정보가 자동으로 추출됐음을 확인했다.

또, EBPI를 사용해 대표적인 바이오 경로 데이터베이스에 포함되지 않은 생화학 반응 정보를 대량의 문헌 내 바이오 경로 이미지로부터 추출하는 데도 성공했다.

감마 하이드록시뷰티르산 대사경로 이미지에 EBPI를 적용하여, 해당 생화학 반응 정보를 추출한 예시
감마 하이드록시뷰티르산 대사경로 이미지에 EBPI를 적용하여, 해당 생화학 반응 정보를 추출한 예시

다양한 산업적 가치를 지닌 대사물질들의 생합성 관련 문헌을 EBPI로 분석한 결과, 문헌에서는 보고가 됐지만 기존 데이터베이스에서는 누락된 생화학 반응들이 확인된 것이다. 화학산업에서 다양한 응용분야를 갖는 1,4-부탄디올, 2-메틸부티르산, 하이드록시티로솔, 레불린산 및 발레로락탐의 생합성 경로를 예시로 이러한 발견을 제시했다.

김현욱 교수는 “이번 연구에서 개발된 EBPI는 대규모 문헌 데이터 분석에 있어 중요한 도구가 될 것”이라며 “생명공학, 대사공학 및 합성생물학 분야에서 바이오 경로 이미지를 AI로 분석하는 최초의 사례로, 관련 연구의 실험 디자인 및 분석 시 유용하게 활용될 수 있을 것”이라고 말했다.

KAIST 생명화학공학과 권문수 박사과정과 이준규 박사과정이 공동 제1저자로 참여한 이번 연구 결과는 대사공학 및 합성생물학 분야 국제학술지 ‘대사공학(Metabolic Engineering)’ 11월호에 게재됐다.

기계신문, 기계산업 뉴스채널