Medidata Blog

AI Technology: 임상시험 분석 고도화의 미래

2023-09-25 - 4 min read
AI Technology: 임상시험 분석 고도화의 미래

지난 수십 년간 생명 과학 기업이 이용할 수 있는 데이터는 한 줌에서 어느새 태산과 같이 늘어났습니다. 개별 환자의 유전학/게놈 특성, 대사/단백체 프로필이 대표적이고 심박수 변화부터 혈당 수치까지 무엇이든 측정하는 웨어러블에서 나온 데이터도 있으며 전자 건강 기록에서 유래한 전자 건강 기록(EHR)도 있습니다. 현재 글로벌 데이터 볼륨 중 약 30%가 헬스케어 업계에서 나오고 있습니다. 2025년까지 헬스케어 관련 데이터의 연평균 성장률은 36%에 달할 전망입니다. 이는 제조업보다 6%, 금융 서비스보다 10%, 미디어 & 엔터테인먼트보다 11% 더 높은 수치입니다. 이에 더해, 임상 시스템 안에 있는 시험대상자 데이터도 2016년부터 2020년까지 500% 증가했습니다.

데이터 분석도 성황입니다. 기존 통계 분석과 함께 막대한 입력 값을 조정하고 비표준 형식으로 저장된 데이터를 처리할 수 있는 강력한 인공지능(AI) 기술도 등장했습니다. AI의 일종인 머신러닝은 가설 없이도, 즉 사람이 결과에 대해 미리 가정을 하지 않아도 데이터에서 패턴을 찾아낼 수 있습니다.

이 AI 툴들은 헬스케어 데이터의 급증과 맞물려 임상시험과 신약 개발에 일대 혁신을 몰고 올 전망입니다. Morgan Stanley Research는 인공 지능과 머신러닝의 적용으로 10년 내에 50가지의 신종 치료법이 등장할 수 있다고 전망했습니다. 즉, 500억 달러가 넘는 시장이 탄생하는 것입니다. 연구계에서는 이미 머신러닝 툴을 통계 분석과 결합하여 방대한 현실 데이터와 임상 이력에서 새로운 인사이트 찾기가 한창입니다.

일례로 Medidata는 빅데이터 모델링 기법을 동원해 키메릭 항원 수용체 T세포 치료(CAR T) 시험대상자가 중증 사이토카인 방출 증후군(CRS)을 겪을 확률을 예측할 수 있는 실험실 마커 찾기에 나섰습니다. 이전에 중증 CRS 임상 위험 인자 조사는 대개 CAR T 연구 하나에 참여한 작은 모집단을 대상으로 했습니다. CAR T 연구 하나에는 시험대상자가 11명 정도 참여합니다. Medidata는 이 방식을 쓰지 않고 여러 CAR T 임상시험에서 540여 시험대상자의 임상시험 데이터를 모아 CRS 위험과 보편적 바이오마커의 연관성을 찾았습니다.

생명과학 업계에서는 인공 지능 기술을 동원해 임상시험 중에 규제에 맞는 데이터를 확보하려는 움직임도 시작됐습니다. 데이터 입력 오류와 이상치, 일관성 부족, 이상반응 보고 오류를 정렬하고 분류하여 약물 승인 기간을 단축하려는 시도입니다.

그러나 생명과학 업계에는 아직도 AI 툴와 머신러닝을 임상 데이터 분석에 제대로 활용하지 못하고 있는 기업이 많습니다. AI가 생소하기 때문이기도 하지만 앞서 말한 성취에도 불구하고 기술적 성공이나 규제 측면의 성공 가능성이 아직은 낮기 때문이기도 합니다. 그러나 이것은 또 AI 기술이 무엇을 해 줄 수 있고 통계와는 어떻게 다른지 이해가 부족하다는 의미이기도 합니다.

이렇게 설명하면 어떨까요? 통계는 인간에게 어렵고 컴퓨터에게 쉬운 일을 하는 반면 인공지능은 컴퓨터에게 어렵고 인간에게 쉬운 일을 해냅니다. 통계는 P-값을 내지만 인공지능은 음성 인식, 이미지 인식과 씨름합니다. 머신러닝이라고 하는 분야에서는 AI와 통계를 결합해 컴퓨터와 인간에게 모두 어려운 문제를 해결합니다.

 

통계란?

고전 통계 모델링 기법은 인구와 경제, 도덕적 행위를 연구, 정량화 및 설명하기 위해 18세기에서 20세기 초 사이에 발전된 것입니다. 그러나 일반적으로 현재의 데이터 세트보다는 훨씬 작은 것에 초점이 맞춰져 있었습니다. 그러다 1980년대에 확률 예측이 가능한 통계인 베이지안 모델링이 등장하면서 통계는 급속히 퍼지게 됩니다.

약물 개발에서 통계 모델링이 필수가 된 1962년에는 약물이 시판 승인을 받으려면 효능의 증거를 보여야 한다는 법 개정이 발효되었습니다. 현재는 환자군을 치료하는 데 어떤 치료법이 위약이나 표준 진료법보다 얼마나 더 효과가 있는지 평가할 때 흔히 통계를 이용합니다.

통계를 통해 변수 간의 관계를 추론할 수 있습니다. 즉, 투입 변수가 산출 변수에 미치는 영향을 판단할 수 있는 것입니다. 그러나 통계는 변수 간 관계가 알려지지 않은 투입 데이터가 많은 대규모 데이터 세트에는 적합도가 떨어집니다. 투입 변수별로 통계적 유의성을 평가하기가 번거롭고 통제도 어렵기 때문입니다. 통계 모델링에서는 모델을 실행하기 전에 분석 대상이 되는 문제나 의문에 대해 엄격한 가정을 수립해야 합니다.

 

인공지능이란?

지난 10년 사이 인공지능이 화두가 되긴 했지만, 그 기원은 현대식 컴퓨팅의 발명입니다. 분석 모델링 분야에 새로 등장한 개념은 아니라는 뜻입니다. 인공지능의 목표는 인간의 지능, 특히 물체와 소리를 인식하고, 말하고, 번역하고, 사회적 거래를 창작물로 바꾸는 능력 등 사람의 기능을 이해하여 기계에서 인간의 지능을 대체하는 것입니다.

생명과학에서는 AI를 가르쳐 실험실에서 암세포를 가려내거나 엑스레이 같은 고품질 의료 영상에서 패턴을 찾아내거나 복잡한 유전체 데이터 세트를 분석하는 일을 맡길 수 있습니다. AI 분석을 이용하면 자연 언어로 저장된 소비자 데이터와 치료 데이터, 진단, 실험실 시험 결과 등을 조합하여 예상치 못한 패턴이나 신종 패턴을 찾아낼 수 있고 치료 반응과 특정 행동을 예측할 수도 있습니다.

 

머신러닝이란?

머신러닝은 프로그래밍 된 지시를 따르기 보다 데이터에서 무언가를 학습하는 시스템의 구축을 목표로 하는, 컴퓨터 공학과 인공지능의 한 분야를 말합니다. 머신러닝은 컴퓨팅 능력이 저렴해지고 컴퓨터가 “학습”할 수 있는 데이터가 대규모로 생기면서 가능해졌습니다.

머신러닝은 통계적 추론을 바탕으로 하지만 가정을 미리 설정할 필요가 없습니다. 이 때문에 컴퓨터가 인사이트를 발견할 수 있고 인간 분석자가 예상하지 못하는 설명을 할 수 있으며 인간으로서 불가능한 정확도로 예측을 할 수도 있습니다.

머신러닝에는 지도(supervised) 학습, 비지도(unsupervised) 학습, 강화 학습 등이 있습니다. 지도 학습은 데이터 세트가 제시한 문제에 대한 정답이 들어 있는 데이터를 컴퓨터에 입력하는 방식입니다. 컴퓨터를 가르쳐 앞으로 나올 데이터 세트에 대해 예측을 하게 할 때 이 방식을 이용합니다. 비지도(unsupervised) 학습은 처음에 출력 데이터나 정답 데이터가 존재하지 않으며 알고리즘이 데이터에서 패턴을 찾아가며 결정을 내리는 것이 특징입니다. 강화 학습은 행동 심리학에서 기원한 것으로 컴퓨터에게 보상과 벌을 주며 특정 목적을 이루도록 가르치는 방식입니다.

비지도(unsupervised) 학습은 오믹스 데이터를 처리하여 데이터에서 관련 클러스터나 연관성을 찾는 형태를 띠기도 합니다. 데이터 품질 분야에서 연관성 매핑을 할 때, 즉 데이터베이스 전체를 보조장치 없이 보면서 두 데이터 지점 간 관계를 찾아내야 할 때 비지도 학습이 유용합니다. 이를 통해 데이터 세트에서 컴플라이언스 문제로 이어질 수도 있는, 예상치 못한 일관성 결여 문제를 찾아낼 수 있습니다.

임상 데이터의 양이 급격히 늘어나면서 생명과학 기업이 따라잡기가 갈수록 어려워지고 있습니다. 이 때 기업에서 머신러닝 알고리즘을 이용한다면 데이터를 분석하고 관련된 정보를 특정할 수 있습니다. 대규모 데이터에서 인사이트를 도출하기도 좋습니다. 통계와 머신러닝이 함께 임상시험에 쓰일 날도 머지 않았습니다.

 

Medidata AI

Medidata AI는 제약과 바이오 기술, 의료 기기 업계에 양질의 임상 데이터와 고급 분석 기능, 산업별 전문성을 공급하는 기업으로 가능성의 확장과 돌파구가 될 만한 인사이트의 발굴, 데이터에 기반한 의사결정, 꾸준한 혁신을 뒷받침하고 있습니다. Medidata AI의 솔루션은 과학자와 의사, 기술 전문가, 전직 규제 담당 공무원 등 전문가로 구성된 팀의 지원을 받아 고객의 문제를 해결해 드리고 있습니다.

Medidata AI는 30,000여 임상시험과 900만 고객을 망라하는 Medidata의 통합 플랫폼이 기반입니다. Medidata AI만의 강점은 임상시험 증례기록서(CRF)에서 환자별 데이터를 직접 추출한다는 것입니다. Medidata AI는 100여 가지 임상 분야와 35 가지가 넘는 공변량을 수집합니다.

Related Articles

메디데이터 블로그 뉴스레터 신청