人工智能(AI)在临床数据管理中的应用:它能做什么,又如何做?

阅读需时5分钟
2025-04-29
人工智能(AI)在临床数据管理中的应用:它能做什么,又如何做?

人工智能(AI)正积极应对临床试验中的实际挑战与问题,为数据管理人员及其他相关人员提供了强大助力。尽管AI带来了变革性优势,但它与其他技术不同,常因自带“神秘光环”而引发争议,在一定程度上阻碍了其推广应用。这往往源于人们的固有观念或误解、对AI工具缺乏认识,以及缺少关于其实际运作机制的详细信息。

本文将深入探讨AI和机器学习(ML)在临床数据管理中的具体应用,重点聚焦医学编码、数据核对以及稽查轨迹审阅等关键环节。

AI辅助医学编码

在临床试验中,与不良事件(AE)相关的症状、治疗过程、用药情况,以及受试者的既往病史和伴随用药(CM)等内容,通常会以“原始术语”(verbatims)的形式被记录下来。一旦这些原始术语被记录,申办方(sponsors)就需要按照FDA及其他监管机构的要求,将其转换(编码)为行业通用的标准医学词典中的术语。

例如,用于对不良事件和病史进行编码的MedDRA(监管活动医学词典),以及用于合并用药编码的 WHODrug(世界卫生组织药品词典),如图1所示。

某位临床医师可能将患者的不良事件记录为“头痛”,而根据该患者或研究的其他信息,该描述可能会被编码为“搏动性头痛”(MedDRA编码为“10058140”)。某位患者可能服用了“对乙酰氨基酚”,该药物在WHODrug中的编码为“000200”。

图1: MedDRA、WHODrug示例数据

在整个研究进程中,医学编码人员需要对成千上万的术语开展编码工作。他们通常凭借多年积累的经验,精心构建了专属的同义词表,并持续运用和维护,进而加快这项既复杂又耗时的编码任务。当遇到一款有望革新其工作模式的强大工具时,他们虽会心生期待,但也会对该工具的性能、准确性和效率产生质疑。

机器学习算法无需编码专员维护同义词表,能够大幅节省“浏览和编码”流程所需的时间与人力。

Medidata的预测编码机器学习算法以超过9000万条历史编码为训练和测试基础,这些历史数据由专业医学编码员针对药品、症状和治疗操作等原始术语编制而成,其中针对MedDRA和WHODrug的数据各有3000余万条,涵盖多个版本的词典和数千项研究数据。

当接收到一个原始术语时,算法会预测该术语归属的词典编码。医学编码员将获得该预测的置信等级(高、中或低),作为初步编码的参考,从而替代传统的同义词匹配或耗时的词典检索。编码员可以选择采用预测编码(给算法点一个“赞”),或不接受该预测(点一个“踩”)。若系统检测到预测术语的置信度达到预设阈值,相关术语即可设为“自动编码”,从而进一步加快编码流程。

预测模型开发

在利用历史编码数据构建模型之前,需要先对数据进行清洗。具体而言,要对原始术语和医学编码进行标准化处理,同时补充词典中的相关内容,并剔除已停用的编码。

整个数据集会按照时间顺序拆分为训练集和测试集——训练集采用最早的一批数据,而测试集则采用最新的数据。训练集用于构建预测模型,测试集则用于评估模型性能。

由于WHODrug和MedDRA的编码具有层级结构,Medidata的机器学习模型也采用了分层架构。模型首先被训练来预测编码的“上级层级”——在MedDRA中是PT(Preferred Term,首选术语),在WHODrug中是DRN(Drug Record Number,药品记录号);然后,对于每一个特定的上级编码,再训练一个“下级模型”用于更细粒度的预测。这些模型仅基于原始术语进行训练,因此无论术语源自哪个用户或研究,模型都能返回统一的编码预测结果。

模型会定期使用最新数据进行更新,以便利用最新的编码决策来持续优化预测能力,并适应新版词典的发布。

AI辅助医学编码:精准与高效并行

预测编码能够节省人工原始术语编码时所需的浏览和检索时间,然而其准确性究竟如何呢?

当用户选择“高置信度”阈值时,与资深编码员的决策相比,MedDRA预测的准确率可达96%,而WHODrug预测的准确率约为92%。两者准确率存在差异的原因在于编码机制不同:MedDRA预测通常只需选择一个单一代码,而WHODrug虽然能通过AI预测药品编码,但用户仍需手动选择对应的ATC(解剖学、治疗学及化学分类系统)编码。

中、低置信度预测的准确率稍低,但可自动编码的原始术语数量显著增加。

在传统的“人工浏览与搜索”编码流程中,平均每条原始术语需要5分钟左右,而AI预测仅需几秒。一项研究可能包含数千条逐字术语,AI自动编码可为每项临床试验节省数十甚至上百小时的工作时间。以“高置信度”阈值为例,每自动编码1000条逐字术语可节省约69小时。此外,即使某些术语未达到自动编码标准,AI仍会为每条逐字术语生成预测结果。据用户反馈,在此辅助下进行人工编码能显著提高效率。AI辅助医学编码的下游优势还体现在:已编码术语可以用于数据审阅,并直接传送至药物警戒系统,避免重复劳动。

AI赋能数据核对

AI作为理想的虚拟助手,能够自动处理繁琐任务,提升流程效率并推动创新,而在不同数据集之间核对数据正是其绝佳的应用场景之一。

利用知识驱动的人工智能专家系统,可以识别临床试验中不良事件(AE)、伴随用药(CM)和既往病史之间的复杂关联,并对这些关联给出置信度评分。

AI数据核对由算法驱动,用户可以节省原本耗费在数据列表审查上的人工时间。通过减少复杂数据质量检查的监管需求,有效降低数据管理风险。在传统流程中可能被忽视的问题,更有可能通过AI和自动化流程被及时识别和标记。

例如,当运行一份查找无合并用药的不良事件报告时,系统会参照不良事件与合并用药之间的知识图谱及其关联强度,识别出数据集之间可能存在的差异点,并建议构建必要的关联以修正这些问题。系统会在报告中详尽列出这些建议,供用户审核并据此建立关联,用户可通过与医学编码环节相同的“点赞/踩”机制进行确认。这种“人机协同”的流程同时也有助于提升专家系统的性能。

通过AI辅助的数据核对,数据管理人员无需再人工审阅多个清单来查找数据差异。

稽查轨迹审阅(Audit Trail Review,ATR)

临床试验的稽查轨迹极为庞杂,全面覆盖了研究的各个环节——包括临床数据、质疑记录、系统日志、活动日志、元数据以及其他各类信息。这些轨迹通常分散于多个系统和流程之中,因此,稽查轨迹审阅工作极具挑战性。即便稽查轨迹数据已实现集中管理,分析工作依然繁重,而回复监管人员提出的质疑也可能耗费大量时间精力。

Medidata正全力打造一项新功能——运用生成式AI技术对稽查轨迹日志展开深度剖析,助力用户更轻松地洞察数据变化趋势,明确数据变更的情境,并梳理事件的先后次序。系统通过**智能提示(smart prompts)和嵌入式对话框(embedded chat)**简化用户体验,自动生成ATR(稽查轨迹报告)结果。此外,该系统在数据全生命周期中建立起数据完整性控制机制,从而增强干系人对稽查轨迹的准确性、透明度、质量和可信度的信心。对于监管机构提出的相关问题,系统也能更快速地响应和生成所需的报告内容。

生成式AI的准确性依赖于公正的数据和恰当的质疑提示。

消除顾虑,拥抱创新

欣然接纳AI驱动的变革,临床试验将迈向一个新高度。

那些正在积极引入AI技术的企业发现,部分从业人员可能会心存顾虑——担忧自身角色将如何演变,或哪些职责将被AI整合甚至替代。这些反应往往源于对AI的猜测、成见或误解。若想成功推广AI应用,关键在于让从业人员全面且清晰地认识人工智能/机器学习(AI/ML)——不仅要了解其功能特性和运作原理,更要明白它将如何积极调整用户的工作重心并减轻工作负担,如何助力临床试验实现卓越目标,以及最终将怎样让患者获益。

为实现这一目标,我们提出“四大技能提升策略”,帮助用户构建对AI/ML的清晰认知:

  1. 提升素养

为提升团队对AI的认知和理解,应提供以下支持:

  • AI学习项目和知识库架构
  • 结合实例开展互动式学习
  • 理解AI的迭代特性
  • 挖掘新业务场景,支持业务发展
  1. 确保临床数据管理人员全程参与

为确保临床数据管理团队在AI应用过程中始终保持主导权,应确保:

  • 反馈预期清晰明确
  • 理解AI反馈循环的影响
  • 充分认识AI的优势与局限(如数据不足、数据质量低或存在偏差)
  1. 适应变革

为成功推动AI应用落地,应重点关注:

  • 转变思维模式
  • 消除未知恐惧与岗位流失担忧
  • 通过培训提升使用舒适度
  • 选拔AI应用“领跑者”以树立信心
  1. 验证机制

为减少AI潜在的偏差,应采取以下措施:

  • 强调“人机协同”中人工评判环节的重要性
  • 在多个数据子集上进行测试
  • 开展敏感性测试
  • 结合真实世界证据进行验证
  • 与监管机构合作

结语

上文所述的案例展示了AI如何通过自动化处理繁琐复杂的医学编码、数据核对和稽查轨迹审阅流程,助力临床数据管理人员节省宝贵的时间与精力,使之更好地施展专业技能和经验,专注于交付高质量数据。

这一理念同样适用于整个临床试验领域——AI能够接手最复杂、最耗时的任务,彻底变革人们的工作方式,推动临床试验发展迈向全新高度。

尽管业界已达成共识,AI在临床试验领域已经带来并将持续带来颠覆性的变革,但它仍是一项极易被误解的技术,常常会引发人们的疑虑、担忧甚至恐惧情绪。若想让每个人都能充分利用AI的强大效能,确保信息透明、秉持包容态度、开展教育普及活动以及提供充足的实践机会,是推动AI应用落地的坚实基石。

这将助力各类职能的从业人员实现自身角色的转型,推动临床试验发展,最终改善患者生活。与此同时,他们还能借此机会收获极具价值和竞争力的新技能。

AI,与每个人息息相关。


阅读白皮书 ‘Accelerate Precise Medical Coding in Clinical Trials 了解AI编码算法在 Rave Coder+的应用

了解 Medidata Clinical Data Studio 如何利用AI技术的自动化和智能分析功能,为多源数据的整合和分析提供全面的数据管理和质量体验,缩短审阅时间,提升数据可靠性。

Copy Article Link

Subscribe to Our Blog

Receive the latest insights on clinical innovation, healthcare technology, and more.

Contact Us

Ready to transform your clinical trials? Get in touch with us today to get started.
人工智能(AI)在临床数据管理中的应用:它能做什么,又如何做?