2018年07月28日,亿欧参加由中国人工智能学会、深圳罗湖区人民政府主办、马上科普承办的“CCAI2018中国人工智能大会”。
中国工程院院士兼CAAI理事长李德毅、中国科学院院士兼CAAI副理事长谭铁牛、北京大学教授兼国家优秀青年科学基金获得者王立威、香港中文大学工程学院副院长黄锦辉、微软全球执行副总裁沈向洋、联想创投集团总裁贺志强、优必选首席战略官任健、高工机器人董事长张小飞等专家学者和人工智能行业从业者皆出席了此次会议。
来自北京大学、国家优秀青年科学基金获得者的王立威教授发表了以《机器学习简介——方法、应用与展望》的主题演讲、从机器学习技术的核心、监督学习、成功领域、商业应用和发展趋势六大方面对机器学习技术进行了详细而通透的梳理,并对该技术与商业场景的应用、现有的不足和如何跨越现有障碍,实现技术的更大价值做了评价和分析。
王立威现任北京大学信息科学技术学院教授,长期从事机器学习相关研究,目前主要致力于机器学习基础理论,即泛化理论的研究,差分隐私算法的设计与分析以及医疗影像诊断算法与系统的开发。
王立威教授在现场演讲
对王立威教授的现场演讲做了重点提取和简单梳理,如下:
未来几年要寻找新理论,修缮经典泛化理论
王立威在演讲中首先对泛化理论进行了清晰的界定和定性。简单而言,泛化理论是机器学习中的核心概念,也是区分于其他领域的核心概念。指的是一个成熟的模型不仅要在已经拿到的训练数据中起作用,在迁涉到新数据时,也要有拟合的能力。如此一来,模型能够在新场景解决新问题和新挑战,有更强的适应力和学习能力。泛化误差越小,模型越优秀。
泛化能力离不开大数据、尤其是大量已经标注的数据作为训练的“原料”。然而,虽然我们现实生活中每天都在产生大量级的新数据,但问题在于,要么已标注的数据数量太少,要么标注成本太高。有意义的已标注数据是非常稀少且昂贵的。
泛化理论曾被人工智能学界奉为机器学习的“经典理论”,也是机器学习领域的奠基石,但是近几年受到了深度学习方法提出的“新课题挑战”。在过去,你有多少数据,就需要一个相应复杂度的模型。但是大家在深度学习方法这个阶段,在实际应用中,发现了与经典泛化理论矛盾、甚至截然相反的情况。也就是用高复杂度模型拟合小数量的数据时,“高维打低维”,得到的结果误差很大。另一方面,深度学习在模型拟合数据时,就不会出现这种情况。因此,学术界希望能够补充完善泛化理论。越来越多的学者参与到深度学习中,研究如何去彻底理解深度学习,实现人们对泛化理论的认知协调。“我认为未来几年,机器学习领域最重要的任务就是要建立一个新的理论,使得新的理论能够解释现在泛化理论中无法解释的现象。”王立威说。
那么,如何评价这两年在深度学习上的研究进展?王立威说:“只能说取得了初步进展,距离完整回答这个问题,路还比较长。”
目前人工智能技术成功领域的共同点在于:几乎无例外地在封闭和狭窄的领域。
什么是封闭和狭窄的领域?王给出解释:也就是与人类的常识无关的领域。封闭和狭窄,通常意味着大量的数据。王立威举了一个AI下围棋的例子,当AI在学习下围棋的数据时,输入的是双方博弈的每一步和结果胜负与否的确切数据。在由规则百分之百统治的领域,通过自动博弈可以生成海量下围棋数据,这些数据再回头反哺一个优秀的模型的生成。
“与之相对,在需要人类常识判断的领域,今天的机器学习技术还远远没有达到一个可以广泛应用的程度。”
商业应用中,要养成收集数据的习惯和建立一套标准化数据流程
机器学习作为一种技术手段和工具,服务于真实的落地场景,在现实生活中发挥巨大作用。王立威认为,不能全然迷信机器学习等人工智能技术,而是要在开放的场景中去寻找经验和答案。他在医疗影像技术和AI技术结合领域有深刻的研究体会,如果单单依靠机器学习技术,可以建立起一个像模像样的模型,但是要达到一个专业而有丰富经验的医生的看片程度,就必须要和懂医疗的专家深度交流。“我甚至认为,一个研究出优秀算法模型的人,应该是AI领域和医疗领域两个方面的专家。”
王立威提及,北大已经打通医学院和信息科学技术学院,成立“医信交叉中心”,培养跨界人才,更好地适应技术落地的需要。同时,北大医学院下附属的八家大型医院成为学生们发挥能力的“训练场”和真实数据的“弹药库”。
在探索AI+医疗影像技术过程中,王立威深感数据收集习惯养成,和一套标准化数据收集流程建立的重要性。“这个行业习惯的培养,将会极大地影响未来行业走势。这项工作在过去很多行业都没有做好,在过去的许多年里都没有完成完整的数据积累。”
但是,令王立威欣慰的是,“但是今年有很多人意识到这件事了。”比方说,医疗领域的电子诊疗卡和电子病历,计算机化的医疗信息收录不仅包含患者静态信息,还能为提供后续服务奠定基础。“一旦数据收集的习惯和标准建立,那么这个行业就要加速了,很有可能在10年以内发挥更大的作用。”
以下是亿欧专访环节,主要围绕“AI教育与人才”、“AI+商用落地”两个维度去展开。
【王立威教授接受亿欧专访现场对话实录】
1、Q:根据资料了解到,您主要关注AI技术在医疗影像场景上的应用。然而现在医疗影像作为医疗辅助手段,对于肺结节、眼底等疾病有较好的提效效果,但是对于神经内科类疾病的确诊率和技术发展却更加滞后一些。您认为为什么会出现这种情况?
A:在我看来,医疗可以用“碎片化”这个词去概括,不一定完全准确,但我想表达的意思是,即使我们只考虑医疗产业链上,医疗影像这块很小的部分,都已经涵盖上千个病种。这上千个病种之间,固然某些存在相似性,但更多的病种个体之间差距巨大,从技术角度看差异也是巨大的,要想解决这些病种,需要一个个去攻克。
其次,即使是针对肺结节这种在医疗影像领域已经发展地比较成熟的病种,目前国内也没有哪个技术团队能把算法准确度做到媲美国内顶尖水平医生的程度。我对AI技术在医疗影像领域的定位是:这样的算法系统,对医生应该是有力的辅助,而不一定要做的比医生更好。
现在AI技术在医疗领域主要还停留在诊断而不是治疗阶段。因为医疗影像是有精标准的。比如说病人做了一个病理,我们可以把病理结果作为影响的精标准。但是治疗的经标准是什么?医生无法得知病人最佳的治疗方案,也就获取不到相应的数据。我认为,AI技术要达到治疗病人的程度,需要更长的周期。
2、Q:在医疗影像领域,可标注的数据需要有医学经验的人去提供,通常是医生。医生除了做本职工作外,还要做这件事情,成本一定高昂。有没有好的解决办法?
A:我认为有,那就是用AI技术为医生做一遍“初标注”,机器标准过一遍,再给医生,能成倍地提高医生效率,随着系统性能的提升,医生做的事情就会越少,某些地区已经开始在做这些事情了。
3、Q:您在演讲中提高,数据收集和收集标准的建立是AI领域未来的发展趋势。未来数据由谁收集、标准由谁制定,哪些主体要参与到这件事情中来呢?
A:这个行业要意识到积累数据的重要性,而且用什么标准去积累数据,这件事情能不能做到,至关重要。比如在就诊治疗全流程中,治疗环节的数据如何获得?“随访”环节很重要,病人出院回家后的健康情况是怎样的,你不弄清楚就没办法确定治疗方案是否正确。如果病人一年后彻底康复了,某种程度上就能证明这套治疗方案行之有效。当然,要多方面考虑影响病人康复的因素,除了医院的治疗方案,还有家庭环境、病人自身因素等等的影响。
首先,数据层面。目前,这个数据还需要医院等医疗机构来收集。在医生诊疗的过程中自然而然地产生数据,但是数据收集成为一个问题。这需要多方协作。比如说,中国医院的病历电子化的普及率不高,一些很好的医院可能做到了,但是很多的基础医院还在起步阶段。那么医生可以使用一些病历电子化的软件,积累数据。政府应该意识到这件问题的重要性,由政府去推动发展,这件事就更有可行性。
其次,标准层面,应该是“政府主导、行业制定”。
4、Q:您认为AI技术在哪个风口会爆发?
A:如果单从技术的角度看,我觉得医疗在近十年一定会发生巨大的变化。就像我刚才谈到的,数据积累逐渐为人们所重视。这件事一旦形成规模,就像洪流浩浩荡荡,是不可逆转的,并且会加速。如果过去五到十年,大家重视数据收集这件事,那么一两年之内,医疗领域就会有一个巨大变革。但由于现在数据积累不足,所以不是一两年内可以看到大的效果。未来数据积累和技术进步,二者得齐头并进。
5、Q:在培养AI人才上,您有什么看法?
A:学校应该提升基础课程的质量。两周前,我参加了一个会议,碰上了十来个过去曾在我组里做科研的本科生,他们现在都已经是博士,且在从事人工智能的科研工作。我问他们:“当你们回头反思本科教育,你觉得怎样的教育是好的?现在应该朝哪种方向努力?”他们都告诉我,应该加强人工知识领域基础性课程的教育,如果基础打好后,后面学习更高等的人工智能知识的时候,会走的更轻松、更快更远。对于要不要专门建立人工智能学院,我认为还需要观察,不需要那么早下结论,但是培养AI人才的基础课程,一定要建立好,这是实实在在的事情。
举另一个例子。1986年图灵奖获得者、美国知名计算机专家John E. Hopcroft教授在北大开设了一个暑期课程,课程名称叫做《信息科学中的数学基础》。他的观点非常明确,就是要把基础知识给大家讲好,我和他在人才培养观点上有非常多的讨论,我认为延伸到AI教育领域,也是这个道理。
6、Q:作为人工智能领域的专家学者,您现在的工作状态是怎样的呢?为我们一揭AI科研工作者的神秘面纱。
A:分为两个方向,一是基础理论研究,二是医疗方面的应用研究。
基础理论研究,我的日常工作就是读文献、找出自己认为重要的问题、并和学生讨论并且尝试解决问题,课题做出来之后,撰写论文发表成果,还会和同行合作交流。总体来说,这是一个非常简单纯粹的工作状态。
在医疗应用领域,除了涵盖在基础理论中和学生一起解决问题的部分,我还会加强与医学专家的交流。我和同学们一起,向医学领域的专家学习系统性知识。