TEL:029-86277796

临床数据挖掘的概念与特点

   日期:2023-10-27     浏览:866     评论:0    
核心提示:智慧医疗网是一家深耕于全球智慧医疗产业领域的电子商务平台,专注于智慧医院、医疗信息化、智慧康复、智慧妇幼、智慧中医、智慧养老、智慧检验、医疗机器人、医疗人工智能等全智慧医疗产业。
国内数据挖掘研究起步虽然较晚,但是发展特别迅速,特别是医学研究领域。目前,我国绝大部分医院信息管理系统只具备简单数据的查询与基本统计功能,隐藏在临床数据背后的潜在关联与知识并没有被充分挖掘利用,大量临床诊疗活动记录数据有待挖掘开发。

一、数据挖掘的概念

数据挖掘(Data Mining,DM)是近年来十分活跃的一个研究领域,是随着数据库、人工智能、统计分析和模式识别等技术发展而出现的一门新兴技术,最早由美国第十一届人工智能协会(American Association for Artificial Intelligence,AAAI)在 1989 年举办的全国人工智能大会(The National Conference on Artificial Intelligence)上提出。
数据挖掘又称为数据库知识发现(Knowledge Discovery in Databases,KDD),指从大量不完全、有噪声、模糊并随机的业务数据中,提取隐含其中的事先不知道但有潜在利用价值的信息和知识的过程,数据挖掘结果多以概念、规则、规律、模式等形式呈现。
二、数据挖掘的目标

数据挖掘主要任务是描述和预测。描述的目标是概括数据中潜在的关联模式,关联模式可以是相关、趋势、聚类、轨迹和异常分布,主要分析方法包括关联分析、聚类分析、差异分析等。预测的目标是利用容易观察的特征变量如体重指数、空腹血糖,预测不容易或不能观察的特征变量如经皮肾镜取石术后患者是否发生严重感染,主要分析方法包括分类和回归等。在数据挖掘算法基础上,一些重要数据挖掘技术还包括关联规则、链分析、决策树、人工神经网络、遗传算法、模糊处理等。

相对于经典统计分析,数据挖掘有独有的本质特征。数据挖掘是在没有明确假设的前提下,去挖掘未知信息,进而发现新知识并加以验证。数据挖掘所得结论或知识,具有先前未知或认知不充分、真实性、实用性三个基本特征。特别需要指出的是,数据挖掘的出现不是为了替代经典统计分析方法,而是经典统计分析方法学的延伸、扩展、整合而成的数据分析流程(Workflows)。
三、数据挖掘对临床研究的变革
(一)推动从循证医学到精准医学的变革
循证医学研究(Evidence-based Medicine)是求证医学、实证医学,即遵循证据的医学,是慎重、准确和明智地应用当前所能获得的最好的研究证据,依托医生个人专业技能和多年临床经验,结合患者的价值和愿望,将三者完美结合制定患者适宜的诊疗方案。随着生物医学特别是基因组学、蛋白质组学等生物信息学发展,出现了转化医学(Translational Medicine)。转化医学促进基础医学研究成果向临床诊疗实践转化,其中最成功的是肿瘤靶向治疗(Targeted Therapy)。
2015 年 1 月 20 日,美国总统奥巴马在国情咨文演讲时提出了精准医学(Precision Medicine)计划,是继 2011 年美国基因组学与生物医学智库发表《迈向精准医学 :建立生物医学与疾病新分类学的知识网络》后提供的更明确和详细的路径规划。精准医学是在利用生物组学技术采集数据基础上,借助数据挖掘实现计算机生物学分析,寻找疾病临床表型特异标志物和分子网络。数据挖掘为循证医学向精准医学、从对症医疗模式向个体医疗模式转换铺平了道路,实现以个人临床表型数据为基础、结合生物组学数据信息,为患者量身设计出最佳治疗方案,以达到治疗效益最大化和医疗资源配置最优化的医疗模式。
以精准医学为导向的数据挖掘,仍需要解决如常规思维模式桎梏、大数据管理能力不足、复杂网络环境下动态数据利用与隐私保护之间的矛盾、平衡大数据共享机制与知识产权保护等问题。
(二)推动从随机抽样研究到真实世界研究
在现代科学研究中,人们主要依赖抽样数据、局部数据和方便数据,甚至在无法获得观察数据的时候,纯粹依赖经验、理论、假设和价值观去发现医疗领域的未知规律。由于局部数据和方便数据的局限性,使人们的认识世界往往带着一定的表面、肤浅、简单、低效等偏倚色彩。
大数据时代的来临,使人类第一次有机会和条件在更多领域、更深层次获取利用全局数据、完整数据和系统数据,更深入地探索现实世界规律,获取过去不可能获取的数据和知识。大数据不只是用随机抽样调查分析,而是主要采用观察对象的整体特征数据进行分析,这就使临床数据挖掘研究具有要全体不拒抽样、要效率不拒精确、要相关不拒因果的特征。
临床随机对照试验能够提供最高等级的临床证据,严格控制试验条件下,在可能有效的受控目标人群中进行标准化治疗,所需样本量小,随访时间也短。然而,随机对照试验并不能解决所有的临床问题。利用真实世界数据开展挖掘研究,用产生的真实世界证据(Real World Evidence)取代传统临床试验,进行更广适应证研究。医疗大数据来自真实的临床诊疗活动场景,纳入以非随机方式分配治疗措施的有多种疾病的患者进行研究,其结果反映实际诊疗过程和真实条件下的诊疗情况,是一种非随机、开放性、无安慰剂研究,因而结论具有很高的外部真实性。
以临床数据挖掘为导向的真实世界研究,以临床应用场景为底层逻辑基础。在临床诊疗实践中,根据患者病情和全身状况,临床医师变化策略采用多种治疗措施、确定治疗剂量。同时,有更长期限观察干预措施的远期效果和不良结局,也观察更多类型的结局指标,如机体功能指标、患者自主报告结局、成本效益等。
利用真实世界数据开展数据挖掘,需要多角度评价数据质量,严格的数据质量管理才能提高临床数据挖掘研究水平,确保研究结果的外部真实性和临床实用价值。
四、临床数据挖掘的特点
临床医学地位特殊、诊疗结果生死攸关,这就赋予了临床数据挖掘的特殊性和复杂性。且其涉及医学伦理与法律问题,使得临床数据挖掘与常规数据挖掘之间存在着较大差异。
第一,临床数据挖掘研究有更好的人群代表性和外部真实性(External validity),或者普遍性(Generalizability)。研究对象的整体性和真实性,弥补了随机对照试验研究对象的局限性和特殊性,为解决临床问题提供了真实的临床实践场景,研究结果和证据更接近,也更有助于临床实践。
第二,临床表型存在着个体差异(Variation)。这赋予了临床数据挖掘区别于常规数据挖掘的本质特征。从理论上来讲,临床特征相同的患者对治疗或药物反应是相似的,但先天遗传性因素或后天环境因素的差异,使得少数患者出现或质或量上的差异性个性化反应。如肿瘤患者对新辅助放化疗的完全应答、部分应答、不应答及特异性进展等。因此,临床数据挖掘需针对患者进行个体化判断或预测,为个体化治疗方案提供依据。
第三,因为直接面对临床数据的复杂结构,故临床数据挖掘很难有通用方法(General Solution)解决各种临床科学问题。相较于可以将数据直接代入公式或模型来反映特征变量关系的理化学科,没有一个普适性模型能够指导临床数据挖掘研究,而是需要多模型、多方法、多阶段反复迭代地探索研究。计算机信息技术的发展,数据挖掘新技术的出现,虽有助于克服这一难题,但迭代反复仍是临床数据挖掘的显著特征。
第四,临床数据挖掘具有伦理性、法律性和社会性。临床数据所有权、数据隐私、数据安全、预期收益以及管理成本等都使得临床数据挖掘与常规数据挖掘存在显著不同。
人类疾病的复杂性、健康重要性、数据特殊性,个人、团体和人群水平的临床结局变异性以及数据挖掘技术共同促进了临床数据挖掘的快速进步。同时,复杂多变的临床数据也为数据挖掘技术的进步提供了广阔的舞台。



 
打赏
 
更多>同类行业资讯
0相关评论

推荐图文
推荐行业资讯
点击排行