임상 데이터 통합: 성공적인 연구를 위한 핵심 가이드
오늘날 임상시험의 성패는 시험기관, 대상자, 실험실(Lab) 등 다양한 소스에서 생성되는 데이터를 얼마나 효과적으로 수집·분석하고, 이를 실제 임상 데이터(RWD)와 정교하게 결합하느냐에 달려 있습니다.
일반적으로 데이터는 수많은 벤더와 분산된 시스템을 통해 수집됩니다. 이후 데이터 관리자(DM), 모니터링 요원(CRA), 의학 모니터 요원 등 수많은 이해관계자가 각자의 시스템에서 이를 검토하고 분석합니다. 즉, 데이터의 발생부터 최종 분석에 이르기까지 복잡한 다중 시스템 구조를 거치게 됩니다.
최근에는 적응형 임상시험(Adaptive Trials)과 같은 복잡한 연구 설계가 늘어나고, 분산형(DCT) 또는 하이브리드 임상시험 도입이 가속화되고 있습니다. 이러한 변화는 혁신 기술과 결합하여 방대한 데이터를 빠르게 처리하고 깊이 있는 인사이트를 도출할 수 있는 기회를 제공합니다.
하지만 기술적 진보가 반드시 장밋빛 미래만을 의미하지는 않습니다. 새로운 기술은 기존의 문제를 해결함과 동시에 '데이터 통합'이라는 고차원적인 과제를 안겨주었습니다. 서로 다른 소스에서 발생하는 데이터를 하나로 묶는 과정에서 시스템 간 통신 장애나 데이터 단절이 발생할 경우, 연구의 신뢰도는 물론 시험대상자의 안전에도 부정적인 영향을 미칠 수 있기 때문입니다.
결국 협업이 필수적인 임상 생태계에서 효과적인 데이터 통합과 상호운용성(Interoperability)은 시스템 간의 장벽을 허물고 모든 이해관계자의 역량을 극대화할 수 있는 유일한 열쇠입니다.
그렇다면 이토록 중요한 데이터 통합이 왜 실무에서는 구현하기 어려운 것일까요? 현재 업계에서는 어떤 노력이 이어지고 있으며, 향후 기술적 지향점은 어디일까요?
본 아티클에서는 임상 데이터 통합의 본질과 상호운용성 표준, 그리고 이를 성공적으로 구현하기 위한 모범 사례와 최신 도구들에 대한 심도 있는 인사이트를 공유합니다.
임상 연구에서 임상 데이터 통합의 의미
임상 데이터 통합이란 가용한 모든 소스에서 생성되는 임상 데이터를 수집하고 이를 정교하게 조화시켜, 모든 이해관계자가 즉시 활용할 수 있는 단일화된 형태로 구축하는 일련의 과정을 의미합니다.
오늘날 임상 데이터는 그 형태가 매우 다양해지고 있습니다. 증례기록서(CRF)나 실험실(Lab) 결과와 같은 정형 데이터는 물론, 의료진의 소견서, 자유 형식의 메모, 이상사례(AE) 내러티브 등과 같은 반정형 및 비정형 데이터까지 포함합니다.

EDC (전자데이터수집) 시스템: 전자 증례기록서(eCRF)의 도입으로 시작된 EDC는 이제 단순한 기록을 넘어 데이터 수집과 관리 전반을 아우르는 통합 플랫폼으로 진화했습니다. 시험기관, 대상자, 랩(Lab)의 데이터를 통합하고 워크플로와 데이터 조정(Reconciliation)을 자동화하여 실시간 인사이트를 제공합니다. 최근의 고도화된 EDC는 eCOA, 영상검사, 센서 데이터까지 아우르는 높은 가시성을 제공하며 모니터링 및 쿼리 관리 기능까지 수행합니다.
ePROs (전자환자보고결과)와 eCOAs (전자임상결과평가): 종이 일지와 설문지를 대체한 ePRO 및 eCOA는 환자의 능동적인 참여를 이끌어냅니다. 이는 환자 경험을 개선할 뿐만 아니라, 실시간 기록을 통해 데이터의 정확성을 높이고 임상시험 중 발생할 수 있는 오류를 획기적으로 줄여줍니다.
랩(Lab) 데이터 (중앙 및 현지 랩): 검체 관리의 복잡성을 해결하기 위해 랩 정보 시스템(LIMS)과 같은 기술이 도입되어, 임상 데이터를 보다 체계적으로 기록·관리·보관하고 있습니다.
영상검사 시스템: 현재 전체 임상시험의 50% 이상, 특히 항암 분야에서는 95% 이상 의료 영상이 활용됩니다. 이는 분석해야 할 데이터의 양이 기하급수적으로 증가했음을 의미하며, 고도화된 분석 시스템의 필요성을 시사합니다.1
웨어러블 및 원격 모니터링 디바이스: 환자에게 부담을 주지 않으면서 연속적인 데이터를 수집할 수 있는 웨어러블 및 원격 모니터링 장치의 사용이 폭발적으로 증가했습니다. 이는 '환자 중심'의 데이터 수집을 실무적으로 구현한 사례로, 임상시험의 효율성을 극대화하고 있습니다.
EHR(전자건강기록)/EMR(전자의무기록)을 활용한 실제 임상 데이터(RWD): EMR과 EHR는 임상 데이터의 핵심 소스 중 하나로, 여기에는 시험대상자의 병력 및 식습관, 흡연, 업무 스트레스 등 생활습관과 관련된 기타 정보도 포함됩니다. 예를 들어, 평균적으로 시험대상자 1명의 EHR 데이터 규모는 1년에 약 80Mb에 달합니다.2 2020년, 세계경제포럼은 헬스케어 분야에서 2.3제타바이트(2,300,000,000,000,000메가바이트)의 데이터가 생성되었다고 추정했습니다.3
이러한 첨단 기술의 도입에도 불구하고, 현장에서는 여전히 스프레드시트나 문서를 활용한 수동 전송 방식이 병행되고 있습니다. 따라서 진정한 의미의 통합을 위해서는 이러한 파편화된 데이터 전송 방식까지 고려한 전략이 필요합니다.
임상 데이터 통합이 중요한 이유와 핵심 가치
임상 데이터를 중앙 시스템으로 통합하고 적절한 기술 플랫폼을 도입하면, AI와 자동화 기술을 통해 전체 연구 프로세스를 간소화하고 운영 속도를 획기적으로 높일 수 있습니다. 특히 데이터 조정 및 정리 작업을 효율화함으로써 기존의 번거로운 수동 작업을 상당 부분 대체할 수 있다는 점이 큰 장점입니다. 다만, 동일한 시험대상자라 할 수지라도 각 EMR/EHR 시스템마다 데이터 형식이 상이할 수 있는데, 이는 데이터 통합의 복잡성을 높이는 요인이 되므로 정교한 조정 과정이 수반되어야 합니다.
최근 분산형 및 하이브리드 임상시험이 빠르게 확산됨에 따라 eCOA, ePRO, 웨어러블 장치 및 원격 모니터링 소스에서 수집되는 파편화된 데이터를 하나로 결합하는 일은 더욱 중요해졌습니다. 이렇게 통합 과정을 거쳐 연구에 즉시 활용할 수 있는 상태로 정제된 데이터는 데이터의 품질과 무결성을 보장할 뿐만 아니라, 이해관계자들에게 실시간 데이터 가시성을 제공하여 신속한 의사결정과 중간 분석을 가능하게 합니다.
결과적으로 이러한 데이터 통합 전략은 데이터 정리에 소요되는 시간과 비용을 줄여 임상시험 개시를 앞당기고, 최종 데이터베이스 잠금(DB Lock)까지의 과정을 가속화합니다. 또한 중앙집중식 데이터 감시와 표준화된 데이터세트 구축을 통해 시험계획서 준수 능력을 강화함으로써, 규제 기관 승인 제출과 감사 대응을 위한 최적의 기반을 마련해 줍니다.
임상 데이터 통합 활용 사례
임상 데이터 통합은 임상시험 전반에 걸쳐 다음과 같은 실질적인 이점을 제공합니다:
임상 데이터와 실제 임상 증거(RWE)의 통합: EHR과 임상 데이터의 통합은 임상 연구 생태계에 영향을 미칩니다. 예를 들어, EDC 양식 작성 속도를 높여 시험기관 경험을 개선하고, 임상시험을 위해 심도 있는 핵심 시험대상자 인사이트를 전달하며, 외부 대조군에 대한 깊이 있는 정보를 제공할 수 있습니다.
데이터 조정 및 정리: 기존에는 막대한 시간이 소요되고 오류에 취약했던 수동 작업들이 데이터 통합과 AI, 자동화 기술을 통해 최적화됩니다. 이를 통해 연구진은 중간 및 최종 분석을 위한 일관되고 정제된 데이터를 보다 신속하게 확보할 수 있습니다.
안전성 모니터링: 다각도로 구성된 시험대상자 프로파일을 활용하여 잠재적인 안전성 및 유효성 신호를 조기에 식별할 수 있습니다. 또한 통합적인 안전성 데이터 관리는 중복 입력을 방지하고 수동 프로세스를 걷어냄으로써, 이상사례(AE) 조정과 쿼리 주기, 반복적인 데이터 검토의 필요성을 낮추는 데 도움을 줍니다.
시험기관 준수: 데이터를 통합하여 중앙 모니터링을 실시하면 데이터의 이상치나 극단치를 더욱 효과적으로 감지할 수 있으며, 이를 바탕으로 규정을 준수하지 않는 시험기관에 대한 신속한 조사와 적절한 조치가 가능해집니다.
임상시험 데이터 통합과 상호운용성의 과제
통합 환경이 제공하는 이점은 매우 강력하지만, 업계는 여전히 모든 이해관계자가 효과적이고 효율적으로 상호운용할 수 있는 환경을 구현하는 데 큰 어려움을 겪고 있습니다.
완전한 통합과 상호운용성을 방해하는 주요 과제는 다음과 같습니다:
데이터 이질성: 일부 데이터 표준이 존재하지만, 의사 소견과 같은 비정형 데이터를 수집할 때는 여전히 한계가 있습니다. 예를 들어 '두통'이라는 단어가 의학적 의미를 갖기 위해서는 발생 맥락과 같은 추가 컨텍스트가 반드시 필요합니다. 또한 벤더와 소스별로 산업 사전(Medical Dictionary)의 업데이트 주기가 달라, 임상시험 전 주기에 걸쳐 정기적인 검토가 수반되어야 합니다.
상호운용성의 부재: 의뢰자, CRO, 시험기관, 랩 등 임상 연구 생태계는 서로 통신이 필요한 수많은 전자 시스템을 사용합니다. 하지만 헬스케어 시스템(EHR/EMR)과 임상시험용 시스템(EDC) 간에는 여전히 기술적 장벽이 존재합니다.
다행히 최근에는 정부와 업계 주도의 프로그램을 통해 전 세계적으로 의미 있는 표준화 작업이 진행되고 있습니다.
품질 보증: 현재 많은 연구에서 품질 보증을 위해 근거 문서 검토(SDV)에 의존하고 있으며, 이는 전체 자원과 예산의 50% 이상을 차지할 만큼 비중이 높습니다. 하지만 투입되는 리소스에 비해 실제 효과는 낮다는 지적이 많습니다. 4
이에 규제 당국은 데이터 검증에 표적화된 접근법을 취하는 위해성 기반 품질 관리(RBQM) 전략을 적극 권장하고 있습니다. 임상 데이터 통합은 이러한 RBQM 목표 달성에 핵심적인 역할을 하지만, 아직 업계 전반의 도입 속도는 다소 느린 편입니다.
임상시험 데이터 품질 개선을 위한 SDV와 SDR(근거 문서 검토)의 역할에 대해 자세히 확인해 보세요.
의뢰자–CRO–벤더 간 조정: 일관되지 않은 형식으로 전송되는 데이터는 결국 수동 확인과 수정 과정을 초래합니다. 이로 인해 데이터가 실제 검토 가능한 상태가 되었을 때는 이미 최신성을 잃게 되는 경우가 많습니다.
이러한 복잡한 과제들을 해결하기 위해, 현재 업계는 보다 효과적이고 효율적인 임상시험 데이터 통합을 향해 어떤 노력을 기울이고 있을까요?
임상시험 데이터 통합 핵심 표준 및 모델
전 세계적으로 통용되는 임상 데이터 통합 표준 중 가장 대표적인 것은 CDISC(Clinical Data Interchange Standards Consortium)에서 개발한 표준입니다. CDISC는 다음과 같은 비전과 미션을 지향합니다.
“데이터의 영향력을 확대하고 연구를 발전시키기 위해 임상시험 정보 주기 전반에 걸쳐 연결된 표준을 구축함으로써, 보다 의미 있고 효과적인 연구를 위해 접근성이 높고 상호운용 및 재사용이 가능한 데이터를 구현한다.”
CDISC의 임상 데이터 통합 표준은 크게 기초 표준(데이터 표준 정의의 기반)과 데이터 교환 표준(서로 다른 정보 시스템 간의 정형 데이터 공유)으로 구분됩니다.5
그중 핵심적인 기초 임상 데이터 표준은 다음과 같습니다:
- CDASH (임상 데이터 수집 표준 조화): 임상시험 데이터를 일관되게 수집하기 위한 표준을 정립합니다. 통일된 CRF(증례기록서), 변수명, 메타데이터 구조를 사용하며, 수집된 데이터가 SDTM으로 명확하게 추적될 수 있도록 지원합니다. 이를 통해 데이터 검토 및 규제 제출 시 투명성과 효율성을 극대화하는 것을 목표로 합니다.
- SDTM (임상시험 데이터 표 모델): 임상시험 데이터를 도메인별로 구성하기 위한 표준 구조와 형식을 정의합니다. 이는 원활한 데이터 집계, 관리, 분석은 물론 규제 기관에 제출하기 위한 보고 업무를 전방위적으로 지원합니다.
- ADaM (분석 데이터 모델): 통계 분석을 수행하기 위해 즉시 활용 가능한(Analysis-Ready) 데이터세트와 메타데이터에 대한 표준 규격을 명시합니다.

CDISC 데이터 교환 표준은 서로 다른 정보 시스템 간의 원활한 정형 데이터 공유를 지원합니다. 여기에는 ODM(Operational Data Model), Define-XML, Dataset-JSON/XML을 비롯하여 실험실 데이터를 위한 LAB, 임상시험 등록을 위한 CTR-XML, 연구 설계를 위한 SDM-XML, 그리고 데이터 간의 의미적 관계를 정의하는 RDF 표준 등이 포함됩니다.
또한 2012년 도입된 HL7 FHIR(Fast Healthcare Interoperability Resources)는 표준 기반의 리소스와 API 세트를 통해 임상 및 헬스케어 데이터를 통합하는 가교 역할을 합니다. 6 특히 EHR(전자 건강기록)과 실제 임상 데이터(RWD)를 정교하게 결합하는 데 필수적인 기술로 자리 잡았습니다.
헬스케어 상호운용성에 대해 더 자세히 알아보세요.
성공적인 임상 데이터 통합을 위한 모범 사례
글로벌 상호운용 환경을 구축하기 위한 업계의 노력이 계속되는 가운데, 현재 가용한 최고 수준의 기술을 활용해 데이터 통합의 이점을 극대화하려면 다음과 같은 모범 사례를 고려해야 합니다.
- Define your integration goals for the trial early (e.g., eSource, EHR-EDC, decentralized capabilities)초기 단계의 통합 목표 정의(예: eSource 도입, EHR-EDC 연동, 분산형 임상시험(DCT) 기능 활용).
- 모든 데이터 소스와 형식 맵핑.
- 개방형 표준(CDISC, HL7 FHIR) 및/또는 API를 지원하는 플랫폼 선택.
- 의뢰자, CRO, 벤더 간 SOP 및 형식 정렬.
- 출시 전 데이터 파이프라인 검증 및 테스트.
- 교차 기능 통합 거버넌스팀 구축.
- 통합 성과 모니터링 및 반복적 개선.
연구 내 데이터 통합 지원 도구 및 플랫폼
모범 사례를 고려할 때(평가 프로세스의 일부로 여러 시스템이 검토되는 상황에서), 선택한 시스템의 개수에 따라 상호운용성의 복잡성이 점점 더 커질 것이라는 건 분명한 사실입니다. 업계 경험에 따르면, 이러한 복잡성은 단순한 데이터 통합을 넘어 구현, 실행, 자원, 지원, 리드 타임, 비용과 같은 과제를 포함하게 됩니다.
검증된 접근법은 품질, 효율성 또는 속도를 저해하지 않으면서 필요한 모든 도구를 제공하는 플랫폼을 구현하고, 임상시험을 지원할 수 있는 관련 경험과 자원을 갖춘 벤더를 선택하는 것입니다.
시스템에서 확인해야 할 기본적인 임상 데이터 통합 기능에는 벤더 간/다중 소스 데이터 통합, 표준화 및 변환 도구, 실시간 데이터 대시보드, 데이터 조정 및 정리를 지원하는 고급 알고리즘, 인공지능, 자동화 등이 포함됩니다.
연구 데이터 통합 분야의 최신 및 향후 트렌드
여러 시스템을 개별적으로 도입할수록 상호운용성의 복잡성은 기하급수적으로 증가하며, 이는 비용과 리드 타임의 상승으로 이어집니다. 따라서 검증된 접근법은 품질과 효율을 저해하지 않으면서 모든 도구를 통합적으로 제공하는 단일 플랫폼을 구현하고, 풍부한 경험을 갖춘 파트너를 선택하는 것입니다.
메디데이터(Medidata)는 이러한 업계의 고민을 선제적으로 파악하여 메디데이터 클리니컬 데이터 스튜디오(Medidata Clinical Data Studio)를 선보였습니다. 이 솔루션은 제3자(3rd-party) 데이터 소스와의 상호운용을 지원하며, AI와 자동화 기술을 통해 데이터 집계부터 표준화, 워크플로 관리까지 전 과정을 혁신합니다.
임상시험의 미래는 가상화 기술에 있습니다. 메디데이터는 이미 합성대조군(SCA)과 Simulant(디지털 트윈, 시험대상자 시뮬레이션) 기술을 제공하고 있습니다. 나아가 메디데이터 차세대 아키텍처를 통해 AI 기반 데이터 정리와 이상치 탐지를 지원하며, '서비스형 상호운용성(Interoperability-as-a-Service)' 영역을 빠르게 확장하고 있습니다. 머지않아 가상 AI 어시스턴트가 프로세스를 돕고, 실제 통합 데이터를 활용한 인실리코(In-silico) 임상시험이 보편화되는 시대가 열릴 것입니다.
결론
임상 데이터 통합은 선택이 아닌 필수 요건입니다.
임상시험에서는 데이터 통합과 상호운용성이 항상 우선순위가 되어야 합니다. 기존 데이터 표준, 고급 기술, 계획 수립, 숙련된 이해관계자는 이를 가능하게 하는 요소입니다.
모범 사례를 따르고 임상 설계 프로세스 초기에 통합 계획을 수용하면 위험을 최소화하고 성공적인 임상시험을 위한 토대를 세울 수 있습니다.
글로벌 임상 데이터 상호운용 환경이 완전히 구축되면 이를 통해 얻는 속도, 효율성, 결과는 모든 참여자에게 혁신을 가져올 것입니다.
메디데이터팀은 이러한 과정을 안내할 경험과, 고객의 성공을 지원하는 업계 최고의 통합 임상시험 플랫폼을 갖추고 있습니다. 여기에서 클리니컬 데이터 스튜디오(Clinical Data Studio)에 대해 자세히 알아볼 수 있습니다. 임상시험 데이터 통합에 대해 논의하려면 지금 바로 문의하세요.
References:
-
- Clinical Trial Imaging
- Gopal, Gayatri, Suter-Crazzolara, Clemens, Toldo, Luca and Eberhardt, Werner. “Digital transformation in healthcare – architectures of present and future information technologies” Clinical Chemistry and Laboratory Medicine (CCLM), vol. 57, no. 3, 2019, pp. 328-335
- World Economic Forum (WEF), article for the WEF Annual Meeting, January 2024
- Hamidi M, Eisenstein EL, Garza MY, et al. Source Data Verification (SDV) Quality in Clinical Research: A Scoping Review. Journal of Clinical and Translational Science. Published online 2024:1-33. doi:10.1017/cts.2024.551
- CDISC Roadmap
- Health Level Seven Fast Healthcare Interoperability Resources
- An advanced multi-scale modeling and generative AI simulation run study.
Contact Us