Airdoc创始人张大磊:人工智能在医疗领域中应用的问题与局限

2017年7月1日,在第二届“中国光谷”国际生物健康产业博览会期间,由武汉国家生物产业基地建设管理办公室主办、火石创造承办、光谷健康智慧园协办的《医疗大数据与医学人工智能高峰论坛》在武汉中国光谷科技会展中心圆满闭幕。

在由武汉国家生物产业基地建设管理办公室主办、火石创造承办、光谷健康智慧园协办的医疗大数据与医学人工智能高峰论坛上,Airdoc创始人兼董事长张大磊做了题为《AI在医疗领域中应用的问题与局限》的演讲。

Airdoc是医疗领域人工智能领军企业,专注于人工智能医学影像识别领域的应用,一直尝试通过科技手段解决影像学方面医疗资源分配不平均。在现场,张大磊重点分享了在智能影像领域的实践经验,以及人工智能在医疗图像识别上的局限性。

Airdoc创始人兼董事长张大磊,AI,医疗,人工智能

“More Intelligent,Better Care”

“在现实中医疗资源分配不平均很多人被漏诊,而人工智能可以学习医学专家的经验,应用在基层能够辅助基层医生工作,提升他们的疾病识别水平。”张大磊这样描述成立Airdoc的初衷,语气诚恳。

近几年,人工智能图像识别技术快速发展,在某些特定领域已经超过人类。医学影像作为疾病诊断的重要路径之一成为了一个热点。医疗行业涉及知识面广,人工智能可以在多个环节发挥作用。比如:医学影像识别、生物技术、辅助诊断、药物研发等领域,目前应用最为广泛的当属医学影像识别。

“总体来讲,整个行业呈现出欣欣向荣的态势。但实际上真正落地的时候还是有很多问题。”张大磊简单介绍了人工智能在医疗图像识别上的三种常规做法及其局限性。

人工智能在医疗图像识别上的三种常规做法

张大磊介绍,目前人工智能在医学影像识别的应用上主要有三种方法:分类、检测和分割

分类是最简单的,需要输入大量的样本学习,一般“万”级别的样本训练出来的结果才能说比较好,但是只能够识别有没有病,不能对医学影像进行标注。

张大磊现场举例:假设通过算法识别图片上的高度相似病变,如果用分类样本量小就很难调准。这一环节存在着样本量不够以及样本不均衡的问题,同时,医生标注的工作量是最小的,医生把弱标签经过分类处理之后就可以进行标注。

检测,即从图像中检测出来有什么。需要的训练样本量一般比分类的样本量少一些,但医生标注的工作量有所增加。举个例子,如果要标注放射样本量,医生需要把每个片子看一遍,把有问题的地方框出来,这个过程中如有框漏,会影响检测的效果。

分割,医生标注的工作量大,需要医生把病灶的轮廓标注出来。相对来说,乳腺癌淋巴转移好标一些,但有一些很难标,比如标注所有的病变点,很可能一个片子上的病变点有几百个,要全部标注出来工作量就太大了。而实际上,医生大致看一下就知道是几期了。

所以,当样本量比较小的时候会选择分割或者数据增强。目前,对于罕见病或小样本数据,有一些办法可以把数据造出来,造出来的数据看上去没什么区别,但要把这些数据清洗出来。

以上每一种方法可以解决不同需求的问题。通过这三种基本的方法,常见的任务都是这几种方法的排列组合。

人工智能在医疗图像识别上的局限

①标注往往是一个瓶颈

“标注是一个很苦的活,很多人会认为人工智能从业者是在写算法,实际上80%的时间都是在做数据预处理。在数据预处理上花的每一份心思都会在最终结果上得到相应的回报,这是非常重要的。但医疗领域的标注往往需要医学专家对数据进行标注,所以标注往往是一个瓶颈。”

张大磊认为,在未来2到5年之内,小样本学习理论层面会获得足够的突破,Airdoc一直在探索这方面并希望能做出一定的成绩,但近2年之内没有什么好的办法,还是要大量医生去做标注。

②数据质量问题

不管在美国还是中国,大多数医院里拿出来的数据都不标准化,用算法直接做一遍都会发现结果很差。为什么?人类历史上从来没有一个工具,可以让一个大夫看过的所有数据给另一个大夫看一遍,医生是高度个性化的(尽管有各种各样的指南)。这就存在一个问题:同样一个病,十个大夫会给出五种或三种诊断意见,到底谁对谁错,有时候很难说,常规做法是多人同时标注取公共结果,但本质上来说这也不是金标准。

单纯看图的时候,觉得这个时间节点上是4a,但如果病人三个月后回访时,最开始做4A判断的大夫会觉得是4b,这是非常常见的事情。把弱标签变成标注的过程中,往往有很多技术之外的因素存在,这些因素如果不处理好,很可能产生数据污染。

③交互问题

总体来讲,病人和医生交互越多环节,算法的质量越差。

中医的望闻问切,我们都可以理解为交互。通过算法只去识别其中一两个,比如识别面部或舌苔时,已经天然丢失掉了很多信息。并且,丢失的信息往往会对最终的判断产生影响。如果大家做某一场景的AI时,医生和病人交互越少的环节越好。假如有一个环节上医生不需要见病人也可以作出判断,这是最好的。“因为算法是可控的,交互是不可控的。”

④弱势的通用人工智能

通用人工智能是非常弱的,但人类医生就是一个通用的人工智能。比如患者问医生吃饭了没,他会根据当时场景判断这个人是否只是在打招呼,这个过程存在复杂的前反馈。几乎任何一个中国人都能听懂这样的笑话:中国乒乓球队很厉害,谁都打不过,中国男子足球队很厉害,谁都打不过。我们都能理解两者是不同的,但对于算法来说如果没有常识库算法会认为意思是一样的。前反馈需要建立一个非常好的常识库。

2015年时,Airdoc收集整理了所有文献和教材建立一个心血管相关的常识库,最后发现它比医生专家的常识库还是要少。

⑤监管发展与技术发展间有着巨大的鸿沟

监管是很长时间变一次,但技术发展是非常快的。技术的迭代速度和医疗体系以安全为第一考核的迭代速度,很明显是完全不相符的。

张大磊表示,之前与FDA打交道时发现,如果要以最严格方式通过FDA算法类的审核的现有规定,几乎不可能,因为FDA要求所有东西完全定型,最终在市场上销售的东西跟申报的东西一模一样。但现实问题是,每一个AI算法背后都可以自学习,都会变得越来越聪明,如果只发布定型版本,那提高部分要不断重新申报。

⑥市场还处于慢慢培育中

张大磊认为,目前市场还是处于慢慢培育过程中。

“从大家认识它到被接受再到相应支付体系的完善,以及到医保的介入,都需要一个很长的时间,在这个过程中,需要投身于这个行业的人有更多耐心更加团结,一起把这个行业做起来。”

相关领域
商业