人工智能(AI)在临床数据管理中的应用:它能做什么,又如何做?

人工智能(AI)正积极应对临床试验中的实际挑战与问题,为数据管理人员及其他相关人员提供了强大助力。尽管AI带来了变革性优势,但它与其他技术不同,常因自带“神秘光环”而引发争议,在一定程度上阻碍了其推广应用。这往往源于人们的固有观念或误解、对AI工具缺乏认识,以及缺少关于其实际运作机制的详细信息。
本文将深入探讨AI和机器学习(ML)在临床数据管理中的具体应用,重点聚焦医学编码、数据核对以及稽查轨迹审阅等关键环节。
AI辅助医学编码
在临床试验中,与不良事件(AE)相关的症状、治疗过程、用药情况,以及受试者的既往病史和伴随用药(CM)等内容,通常会以“原始术语”(verbatims)的形式被记录下来。一旦这些原始术语被记录,申办方(sponsors)就需要按照FDA及其他监管机构的要求,将其转换(编码)为行业通用的标准医学词典中的术语。
例如,用于对不良事件和病史进行编码的MedDRA(监管活动医学词典),以及用于合并用药编码的 WHODrug(世界卫生组织药品词典),如图1所示。
某位临床医师可能将患者的不良事件记录为“头痛”,而根据该患者或研究的其他信息,该描述可能会被编码为“搏动性头痛”(MedDRA编码为“10058140”)。某位患者可能服用了“对乙酰氨基酚”,该药物在WHODrug中的编码为“000200”。
图1: MedDRA、WHODrug示例数据
在整个研究进程中,医学编码人员需要对成千上万的术语开展编码工作。他们通常凭借多年积累的经验,精心构建了专属的同义词表,并持续运用和维护,进而加快这项既复杂又耗时的编码任务。当遇到一款有望革新其工作模式的强大工具时,他们虽会心生期待,但也会对该工具的性能、准确性和效率产生质疑。
机器学习算法无需编码专员维护同义词表,能够大幅节省“浏览和编码”流程所需的时间与人力。
Medidata的预测编码机器学习算法以超过9000万条历史编码为训练和测试基础,这些历史数据由专业医学编码员针对药品、症状和治疗操作等原始术语编制而成,其中针对MedDRA和WHODrug的数据各有3000余万条,涵盖多个版本的词典和数千项研究数据。
当接收到一个原始术语时,算法会预测该术语归属的词典编码。医学编码员将获得该预测的置信等级(高、中或低),作为初步编码的参考,从而替代传统的同义词匹配或耗时的词典检索。编码员可以选择采用预测编码(给算法点一个“赞”),或不接受该预测(点一个“踩”)。若系统检测到预测术语的置信度达到预设阈值,相关术语即可设为“自动编码”,从而进一步加快编码流程。
预测模型开发
在利用历史编码数据构建模型之前,需要先对数据进行清洗。具体而言,要对原始术语和医学编码进行标准化处理,同时补充词典中的相关内容,并剔除已停用的编码。
整个数据集会按照时间顺序拆分为训练集和测试集——训练集采用最早的一批数据,而测试集则采用最新的数据。训练集用于构建预测模型,测试集则用于评估模型性能。
由于WHODrug和MedDRA的编码具有层级结构,Medidata的机器学习模型也采用了分层架构。模型首先被训练来预测编码的“上级层级”——在MedDRA中是PT(Preferred Term,首选术语),在WHODrug中是DRN(Drug Record Number,药品记录号);然后,对于每一个特定的上级编码,再训练一个“下级模型”用于更细粒度的预测。这些模型仅基于原始术语进行训练,因此无论术语源自哪个用户或研究,模型都能返回统一的编码预测结果。
模型会定期使用最新数据进行更新,以便利用最新的编码决策来持续优化预测能力,并适应新版词典的发布。
AI辅助医学编码:精准与高效并行
预测编码能够节省人工原始术语编码时所需的浏览和检索时间,然而其准确性究竟如何呢?
当用户选择“高置信度”阈值时,与资深编码员的决策相比,MedDRA预测的准确率可达96%,而WHODrug预测的准确率约为92%。两者准确率存在差异的原因在于编码机制不同:MedDRA预测通常只需选择一个单一代码,而WHODrug虽然能通过AI预测药品编码,但用户仍需手动选择对应的ATC(解剖学、治疗学及化学分类系统)编码。
中、低置信度预测的准确率稍低,但可自动编码的原始术语数量显著增加。
在传统的“人工浏览与搜索”编码流程中,平均每条原始术语需要5分钟左右,而AI预测仅需几秒。一项研究可能包含数千条逐字术语,AI自动编码可为每项临床试验节省数十甚至上百小时的工作时间。以“高置信度”阈值为例,每自动编码1000条逐字术语可节省约69小时。此外,即使某些术语未达到自动编码标准,AI仍会为每条逐字术语生成预测结果。据用户反馈,在此辅助下进行人工编码能显著提高效率。AI辅助医学编码的下游优势还体现在:已编码术语可以用于数据审阅,并直接传送至药物警戒系统,避免重复劳动。
AI赋能数据核对
AI作为理想的虚拟助手,能够自动处理繁琐任务,提升流程效率并推动创新,而在不同数据集之间核对数据正是其绝佳的应用场景之一。
利用知识驱动的人工智能专家系统,可以识别临床试验中不良事件(AE)、伴随用药(CM)和既往病史之间的复杂关联,并对这些关联给出置信度评分。
AI数据核对由算法驱动,用户可以节省原本耗费在数据列表审查上的人工时间。通过减少复杂数据质量检查的监管需求,有效降低数据管理风险。在传统流程中可能被忽视的问题,更有可能通过AI和自动化流程被及时识别和标记。
例如,当运行一份查找无合并用药的不良事件报告时,系统会参照不良事件与合并用药之间的知识图谱及其关联强度,识别出数据集之间可能存在的差异点,并建议构建必要的关联以修正这些问题。系统会在报告中详尽列出这些建议,供用户审核并据此建立关联,用户可通过与医学编码环节相同的“点赞/踩”机制进行确认。这种“人机协同”的流程同时也有助于提升专家系统的性能。
通过AI辅助的数据核对,数据管理人员无需再人工审阅多个清单来查找数据差异。
稽查轨迹审阅(Audit Trail Review,ATR)
临床试验的稽查轨迹极为庞杂,全面覆盖了研究的各个环节——包括临床数据、质疑记录、系统日志、活动日志、元数据以及其他各类信息。这些轨迹通常分散于多个系统和流程之中,因此,稽查轨迹审阅工作极具挑战性。即便稽查轨迹数据已实现集中管理,分析工作依然繁重,而回复监管人员提出的质疑也可能耗费大量时间精力。
Medidata正全力打造一项新功能——运用生成式AI技术对稽查轨迹日志展开深度剖析,助力用户更轻松地洞察数据变化趋势,明确数据变更的情境,并梳理事件的先后次序。系统通过**智能提示(smart prompts)和嵌入式对话框(embedded chat)**简化用户体验,自动生成ATR(稽查轨迹报告)结果。此外,该系统在数据全生命周期中建立起数据完整性控制机制,从而增强干系人对稽查轨迹的准确性、透明度、质量和可信度的信心。对于监管机构提出的相关问题,系统也能更快速地响应和生成所需的报告内容。
生成式AI的准确性依赖于公正的数据和恰当的质疑提示。
消除顾虑,拥抱创新
欣然接纳AI驱动的变革,临床试验将迈向一个新高度。
那些正在积极引入AI技术的企业发现,部分从业人员可能会心存顾虑——担忧自身角色将如何演变,或哪些职责将被AI整合甚至替代。这些反应往往源于对AI的猜测、成见或误解。若想成功推广AI应用,关键在于让从业人员全面且清晰地认识人工智能/机器学习(AI/ML)——不仅要了解其功能特性和运作原理,更要明白它将如何积极调整用户的工作重心并减轻工作负担,如何助力临床试验实现卓越目标,以及最终将怎样让患者获益。
为实现这一目标,我们提出“四大技能提升策略”,帮助用户构建对AI/ML的清晰认知:
- 提升素养
为提升团队对AI的认知和理解,应提供以下支持:
- AI学习项目和知识库架构
- 结合实例开展互动式学习
- 理解AI的迭代特性
- 挖掘新业务场景,支持业务发展
- 确保临床数据管理人员全程参与
为确保临床数据管理团队在AI应用过程中始终保持主导权,应确保:
- 反馈预期清晰明确
- 理解AI反馈循环的影响
- 充分认识AI的优势与局限(如数据不足、数据质量低或存在偏差)
- 适应变革
为成功推动AI应用落地,应重点关注:
- 转变思维模式
- 消除未知恐惧与岗位流失担忧
- 通过培训提升使用舒适度
- 选拔AI应用“领跑者”以树立信心
- 验证机制
为减少AI潜在的偏差,应采取以下措施:
- 强调“人机协同”中人工评判环节的重要性
- 在多个数据子集上进行测试
- 开展敏感性测试
- 结合真实世界证据进行验证
- 与监管机构合作
结语
上文所述的案例展示了AI如何通过自动化处理繁琐复杂的医学编码、数据核对和稽查轨迹审阅流程,助力临床数据管理人员节省宝贵的时间与精力,使之更好地施展专业技能和经验,专注于交付高质量数据。
这一理念同样适用于整个临床试验领域——AI能够接手最复杂、最耗时的任务,彻底变革人们的工作方式,推动临床试验发展迈向全新高度。
尽管业界已达成共识,AI在临床试验领域已经带来并将持续带来颠覆性的变革,但它仍是一项极易被误解的技术,常常会引发人们的疑虑、担忧甚至恐惧情绪。若想让每个人都能充分利用AI的强大效能,确保信息透明、秉持包容态度、开展教育普及活动以及提供充足的实践机会,是推动AI应用落地的坚实基石。
这将助力各类职能的从业人员实现自身角色的转型,推动临床试验发展,最终改善患者生活。与此同时,他们还能借此机会收获极具价值和竞争力的新技能。
AI,与每个人息息相关。
阅读白皮书 ‘Accelerate Precise Medical Coding in Clinical Trials’ 了解AI编码算法在 Rave Coder+的应用
了解 Medidata Clinical Data Studio 如何利用AI技术的自动化和智能分析功能,为多源数据的整合和分析提供全面的数据管理和质量体验,缩短审阅时间,提升数据可靠性。
Contact Us
