Medidata Blog

[NEXT+] 빅데이터를 활용한 기관 틍록 타임라인 예측 및 기관 선정 최적화

Reading Time: 3 minutes

Chris Komelasky(Executive Director, Strategic Feasibility, Site and Patient Access, PPD)

John Van Hoy(Executive Director, Data Science & Advanced Analytics, PPD)

 

2015년 터프츠 대학의 약물 및 질병 연구센터 자료에 따르면 2005년부터 2015년까지 프로토콜이 크게 발전했고, 훨씬 더 복잡해졌습니다. 그 증거로 선정제외기준이 61% 증가했고, 임상시험 엔드 포인트는 25%, 연구를 위한 방문은 25%, 연구 절차는 70%나 증가했습니다. 이 같은 요인들로 인해 연구가 복잡해지고, 신약 개발의 시간적 비용이 증가하게 되었습니다. 연구 기간이 더 늘어났고, 임상 대상자가 한 명도 없는 연구기관도 증가하는 등 여러 어려움이 있습니다. 

 

데이터 중심의 접근이 필요한 이유

이 문제를 해결을 위해서는 데이터 중심으로 연구를 설계하고 실시해야 합니다. 저희 PPD사의 전략적타당성 팀은 CRO로서 어떻게 이 문제들을 해결할 수 있을지 고민하고 있습니다. 또한 흔히 생각하는 전통적인 타당성조사 방식, 즉 연구기관 대상의 설문을 기반으로 한 조사를 넘어 표준화된 분석을 사용합니다. 

CRO로서 연구 수탁 전 즉, 계획 단계에서부터 데이터 중심적 접근으로 사이트를 식별하고 선정합니다. 궁극적으로는 데이터 분석에 대한 표준적 시각을 도입하고자 합니다. 등록률, 시간, 활성화 예측을 통해 타임라인을 이해하고 경쟁 환경, 표준 치료, 규제 정보, 환자 정보 등을 확인하여 프로그램의 전략과 기관 및 환자 상황을 더 잘 이해하고자 하는 것입니다. 이것이 뒷받침 될 때, 데이터를 어떻게 다룰 지도 방향이 잡힙니다. 우선 사이트 정보를 이용하여 사이트와 연구자 정보, 내부적으로는 과거 임상 경험, 이것을 보완하는 외부적 환경 정보 등을 포함합니다. 

가장 발전이 많은 부분은 환자 데이터입니다. 과거의 보험 청구나 처방 정보 등의 비식별 정보(deidentified)는 물론, 빠르게 업데이트되는 EMR, EHR, 기타 네트워크 등을 통해 받는 실시간 정보와 식별 정보 등이 포함됩니다. 때문에 여러 기관과 지속적으로 협력하면서 환자들에 대한 보다 넓고 깊은 이해를 얻고자 하고 있습니다. 여기에 업계 환경 데이터까지 더하여 외부 여건 중 우리의 의사결정에 영향을 미칠 요소들을 파악합니다. 

데이터와 관련된 도전과제들도 있습니다. 어떻게 활용할 것인지와 관련한 문제가 있고, 복잡성 문제도 있습니다. 어떤 데이터는 글로벌 커버리지가 부족하고, 접근성이나 포맷이 일관되지 않고 기준이 부족한 것도 있습니다. 데이터 품질과 완성도에도 문제도 있고, 데이터 저장 중복, 관찰 부족으로 인한 미래 활동 예측의 어려움, 데이터 프라이버시 및 활용, 보안과 관련된 문제도 있습니다. 이런 요소들을 고려해야 효과적으로 의사결정을 할 수 있습니다. 

 

데이터 민주화에 주목

앞서 언급한 수많은 도전과제를 극복하기 위해 PPD사는 데이터 민주화에 주목합니다. 데이터 민주화란, 데이터가 접근이 가능하고 최소한의 어려움을 빼면 언제든 접근해서 사용할 수 있는 상태를 말합니다. 이러한 상태를 달성하는 것은 쉽지 않습니다. 그러나 그 비전에 한발짝 더 가까워 질 수 있는 기회들은 있습니다. 이를 위해 PPD는 세분화된 접근을 하고자 합니다. 

우선 첫 단계로 파트너들이 서로 정보를 공유해야 통합 데이터를 활용하여 더 나은 의사결정을 할 수 있습니다. 메디데이터 에이콘AI와 협력은 두 개의 다른 데이터셋을 결합시켜 더 나은 결과를 도모하는 사례입니다. 물론 그 기반이 되는 표준 데이터 모델 생성 등이 선행되어야 데이터를 대등하게 비교할 수 있습니다. 마스터데이터관리(MDM)의 경우에도, 효과적으로 정보를 추출해서 통합하는 역량을 가지고 있습니다. 

두 개의 다른 데이터셋을 통합하여 연구자들이 좀더 포괄적으로 경험 및 기타 특징을 분석할 수 있습니다. 그리고 데이터 거버넌스가 잘 잡혀 있어야 데이터 공유가 가능합니다. 데이터 사용 범위, 추출, 저장, 폐기 방법 등이 정해져 있어야 하고 프라이버시 관련해서도 어떤 부분을 숨겨서 보호할지 등이 정해져 있어야 합니다. 또한 데이터 공유를 위한 인프라도 필요합니다. 결과적으로는 분석도구를 얹을 수 있는 메커니즘이 준비되어야 합니다. 

 

메디데이터 에이콘AI와 협력

랩의 개념을 도입하여 실험적으로 보다 민첩하게 정보를 가져와서 활용하는 것을 시도했습니다. PPD CTMS 데이터를 시작점으로 삼았고, 에이콘AI의 데이터셋은 주로 Rave에서 가져왔습니다. 이 둘을 공통의 환경에서 통합하고 벤치마킹을 하고, 산업 동향을 파악하고, 데이터 모델링을 시작했습니다. 두 회사의 데이터 연구자들이 공동으로 데이터를 분석하고 당면 과제들에 답하기 위한 모델 개발법을 모색했습니다. 이러한 모델에 기여하는 특징을 이해하고, 새 데이터가 우리의 연구에 힘을 실어줄 수 있는지 탐색하고, 어떻게 공동으로 새로운 모델을 발전, 검증하여 의사결정을 도울 수 있을지도 모색했습니다. 

PPD가 예측 분석을 통해 달성하고자 비즈니스 목표는 크게 두 가지입니다. 임상 등록 타임라인을 더 정확하게 예측하는 것. 그리고 알고리즘을 이용하여 어떤 사이트가 특정 연구프로토콜의 이해에 가장 적합한지를 판단하는 것입니다. 

에이콘AI와 협력하여 개발한 모델의 효과를 간단히 살펴보면, 환자 등록률 예측의 정확도가 개선됐습니다. 기본 모델을 가지고 FSA, LPI 같은 마일스톤 예측을 실시할 때와 비교하면, 예측이 약 30% 더 정확해졌습니다. 마일스톤 측정 에러는 30% 줄였습니다. 랭킹 모델의 경우, 3대 등급으로 나눈 예측 모델을 사용하고 있는데, 이 중 1등급으로 분류된 기관들은 제일 낮은 등급 기관들보다 등록률이 거의 두 배 높았습니다. 예측 모델이 실제 등록률을 꽤 잘 예측한 것입니다. 

사이트 추천 모델을 활용한 임상시험 최적화 측면에서는, 과거 정보를 기반으로 가설적 최적화를 실시하는데 보수적인 예측치를 적용했을 때, 환자 등록 타임라인이 1~1.5달 정도 단축된 것을 뇌과학과 종양학 등 주요 치료 분야에서 확인할 수 있었습니다. 고무적인 결과들이고, 앞으로의 파트너십에 기대가 큰 이유입니다. 앞으로도 에이콘AI와 함께 개발한 모델을 더욱 발전시키고자 합니다. 

다른 데이터 영역에서도 모델링 관련 협업을 준비하고 있습니다. 앞서 언급했던 실사용 데이터나 프로토콜 복잡성 등에 대한 심층 정도, 산업 전반에 걸친 임상시험 정체 등이 포함되고, 앞으로 모델링은 더 정확해질 것으로 생각합니다.

Jannie Myung-In Jung Image

Jannie Myung-In Jung