2017年05月25日-28日,由国家发改委、工信部、国家互联网信息办公室、贵州省人民政府共同主办的“2017中国国际大数据产业博览会”在贵州贵阳举行。
在2017数博会以“大数据科学引领与创新”为主题的第二届大数据科学与工程国际会议(2017)上,中国科学院陈润生院士,发表了“大数据与精准医学”的主题演讲。
陈润生院士在演讲中不仅分享了个人对精准医学五个方面的理解、精准医学在哪些方面导致产业变革呢以及实现精准医学要建立的基础等内容,干货颇多。
以下为陈润生演讲速记整理(有删减):
尊敬的各位领导,各位专家,非常容幸能够到这儿来介绍一下关于精准医学的情况,非常高兴能跟各位大数据专家进行交流,下面主要讲讲精准医学。
大家知道,这个2015年1月20号美国总统奥巴马提到美国要开展启动所谓的精准医学研究,那么从此美国的精准医学就走上了国家计划的轨道,然后这个消息很就传到国内,我们的习总书记和李克强总理指示,2015年十几个部委就启动了精准医学。
相关政策指出,在2016年的六七月份有60个以精准医学命名的重大专项的项目,总投资在12亿人民币。说精准医学在我们国家也开展起来了。第二批的招标,最后已经招标完了,现在正在评议过程当中,精准医学在全世界已经蓬勃开展起来了。所以我就精准医学就我的理解跟大家进行一些交流。
大家知道,我们人所有的高等生物都是细胞组成的,这个遗传物质在染色体里面,把这个链展开是很漂亮的,每一个链都是一个单位。有四个符号组成的易纬链(音),长到3乘10的9次方。这个链有9个符号代表了我们所有的生长和发育。
上个世纪90年代开始人类世上,可以开始测这个人类密码了,以前测人类的遗传密码,一共消耗了100亿美金,由于这个技术对人类健康的重大意义,短短30年里面,这个效率提高了10的6次方倍,价格降低了100万倍。
大家知道,在国内花六千就可以得到自己的遗传密码。这就是一个非常简单明了的事,就是没有大数据,遗传密码可以测得,但是不知道它的含义。而我们知道最近国际上正在发布一个更加有效的系统,大约在今年年底,每个月花六到七百人民币可以测自己的遗传密码。不管是否明白,它代表你的遗传特征和信息。
我相信在未来,有一个简单的事实,任何一个人花六百块可以拿光盘找你,问你,这个里面我怎么了。以后很明确这样的一个事情,就好像刚才提到云计算,很快的就会铺天盖地的涌入到人们的日常生活当中来。所以现在很现实的问题,从现在开始,每个人都有希望拿到自己的遗传密码,这就是当前划时代的科学进展的背景。
下面就精准医学我来谈我自己五个方面的理解:
第一,精准医学的核心是什么。
精准医学的本质是什么东西。我的理解是,精准医学的本质一句话,就是组学大数据与医学的结合。
实际上很简单,大家知道,近代生物医学革命性的变化就是得到了以遗传密码为基础的大数据。这是人类生物科学上的划时代的,以前没有,以后我们就开始用了。以后就变成常规的事了。因此,这个数据刚开始价格很高,现在变得普通、便宜了,任何人可以得到自己的遗传密码,而这些遗传密码的分析,分析什么?分析正常人和得了肿瘤的人的分析,遗传密码是那些不同的,就可以得到信息。
跟肺癌相关的,你的遗传密码的不足在什么地方。如果我们分析了更多人的跟肿瘤,跟心脑血管病,跟带学疾病相关的例子,这些人花几百块侧遗传密码,这样进行比较,哪方面可以存在突变,你就有得这个病的风险。
大家知道美国的影星安吉利,朱丽叶,她测她的一个典型的遗传密码,发现了一个不一样的变化,她测了,她采取了措施,她把乳腺切掉,就不会得乳腺癌了。我们就是通过数据的分析得来的。
我们从上个世纪90年代以来可以测每个人的遗传密码,还有各样各种的大数据,我们叫蛋白质的大数据等等,以遗传密码为代表的组学数据,这些组学数据通过大数据分析以后获得知识,构建数据库可以用来对人类的疾病进行判断。这样的结合实际上就是当前精准医学的本质。
你说精准医学和过去医学增加了什么东西,增加了组学大数据,加在临床医学当中来了。核心就是增加了以遗传密码为代表的大数据。也就是一系列的自遗传密码破译以来的医学等等的这样的思想的延续。
第二,精准医学刚才谈了本质是把组学大数据用到临床医学当中来了,这样的一种精准医学的概念会不会带来一些本质的变化?
为什么会引起各国领导人的重视。我想我乐意谈一谈,精准医学虽然是把组学大数据加到临床医学当中来,但是它的意义并不仅仅在于提高了临床医学的几个百分点,可能还有更深刻的意义,这个更深刻的意义我们也可以用一句话来概括。
精准医学的本质的意义就是可以使医疗健康的概念发生本质变化。我们知道,现在大家知道,这个健康科学的核心是什么,是诊断治疗,所以我们健康是为病人服务的,有了病才去医院找大夫,到医院。这是现在健康体系的核心,有了精准医学以后,大家知道我们可以对任何人在不得病的时候,在它的整个的全生长过程,从出生到死亡作全方位的监控,这个时候实际做的并不是对病人进行治疗,而是对每一个活在世界上的人健康做测量,做评估,做干预而使得有一些疾病不发生或者延缓发生,大大的提高生活质量。所以精准医学的概念下,健康医学的概念从现在诊断治疗为主发展到精准医学实现以后的健康保障为主。
就是说它对世界上的全民,全部生产周期进行全方位的监控,所以这是本质的变化。这个本质的变化有人估计会带来相应的产业的发展,我找到一个资料说,经济2018年全球跟精准医学相关的产业和带来的产值的变化有2000亿美金。
今年我参加了一个讨论会,我们院做了另外一个数据,可能比我更加有说服力,到2020年精准医学带来的产业的总得份额可以到1.89万亿美金,1.89万亿美金在国家的GDP占可观的比例,所以从医疗概念上的变化到产业产值和生产结构的变化,也许是引起各国领导人重视的更加深刻的背景。
这就是第二个我要谈的精准医学,除了字面上的把组学用到医学当中,后台一些本质的思考也许是可以带来概念和产业上的变革。
因此精准医学研究已经成为新一轮国家科技竞争和引领国家发展潮流的制高点,很多人把精准医学和国家发展政策相关联了。美国开展精准研究,我不详细讲了,最明显的是美国要测100万自然人的遗传密码。他要把100万人,大家知道这个大数据,下一步会讲,他会测100万人,进展很快,大约一个月以前已经测了68万人,这个进展非常快。
欧盟也在开展精准医学计划,它的计划某一种意义上和美国互补,他要测10万个肿瘤和罕见病的遗传密码。这个可以和每年100万的自然人可以分析,可以找出真正恶性疾病相关的图片。
日本也执行了它的精准医学计划,那么我想,精准医学到底在哪几个方面导致产业的变革呢?
我想至少可以推动如下四个方面的产业,具体来升级或者出现百万量级的生物库。我们知道这些样本有一个百万量级样品的收集,收集以后要保管,同时要提供相关的组学的材料,然后还要分配给相应单位使用,那么怎么做到这一点?
一定有一个相当巨大规模的样本库的设施,这样才能保证,百万量级的数据是为了测量组学数据,测量以后有相应的数据库。会促进生物样本库和数据库的发展。
第二点数据收集出来要测量基因组等等,所以第二个推动的产业就是以基因组测为代表的组学测量公司。这个发展非常快,我不知道他们怎么生存,如果只靠降低价格,90%都会死亡的。现在很多都在测,有人估计到了2018年的话,整个的基因测序的产业规模可以到117亿美金,我想这是一年前估计的数据,这是过于保守,一个人600块,中国13亿人,远远大于这个数。
第三个产业,我们海量的数据不是目的,目的是挖掘,挖掘两个非常宝贵的东西,一个是疾病诊断的分子标记,这是过去没有的海量数据,我们把海量数据,比如说肿瘤、肝癌、肺癌相关的挖掘出来变成数据库,变成这个疾病有哪几个位点变化,这样就会对很多严重疾病的早期发现,或者现在不能发现的能得到发现,这是非常非常重要的。
我们知道,现在我们疾病诊断的诊断率很低,很多肿瘤70%、80%看不准,因为大量的分子标记没有发现,我们有了海量数据以后就可以发现这个分子标记,我们就有救了。
第二个产业就是,发现新的药物治疗的把点来设计新的药物。大家知道一个药物,美国的沃克公司最近有一个药,每年的销售额是百亿美金,我们通过大数据分析得到非常多的跟疾病相关的药物的把点。我自己认为这个产业讲是性能价格比最好的产业,谁优先把这个大数据挖掘,谁就优先得到治疗这个疾病的标记。
第四个产业就是,新的概念下,精准医学需要新的设施,这个设施会缔造千亿美金的产业。
所以至少在四个方面能够促进新的精准医学产业的发展。那我国的精准医学的目标,跟国际是一致的。
第三个要说的就是实现精准医学要建立哪些基础。
既然精准医学也是重要的,也有重大的发展前景,要实现精准医学需要具备两个基础,一个叫组学大数据的基础,我们知道要实现精准医学首先得得到获取组学数据,但是获取的组学数据谁也读不懂,所以必须利用大数据的分析的理论技术和方法,因此要获得分子水平和疾病相关的知识必须把组学数据的获取和大数据挖掘这当前两大前沿领域有机的融合起来,才能得到跟疾病相关的知识。所以第一个基础是组学大数据的基础,没有组学没有大数据我们就不能够得到有效的知识。
刚才邬先生讲了实际上有很多数据只利用了很少的一部分,其实下面我会讲,我们基因组充其量能利用了3%,97%都没有挖掘,所以我们有巨大的潜力。
第二个有组学大数据的基础,我们就会获得分子水平上相关的知识。
第二个基础就是把分子基础的变化和组学的桥梁。一定和当前的影像学和声化学结合起来。我发现一些测序公司为了宣扬自己的能力,我测了什么都可以解决了,实际上这是不对的,是片面的,精准医学是建立在现代临床基础上,是相关的,没有现在临床的结合,精准医学独自是不能实现目标的。
第四个问题是精准医学现在走到哪一步了?
我自己的观点是精准医学刚刚上路,为什么呢?因为在精准医学这个概念下,在精准医学的核心,我们用它来衡量,我们离达到这个目标差很远,我们遇到了非常大的困难和挑战。所以我利用这个机会讲一点点困难,挑战是非常多的。
在组学当中,在遗传密码当中只讲一个挑战,这个挑战就是基因组当中的暗信息,我们的遗传密码也存在暗信息。大家知道我们的遗传密码,大家看这个图,我们现在可以花五六千可以测得完整的遗传密码。今年年底可以花六七百测得遗传密码。
我们的问题是,这个遗传密码现在我们把全世界生物医学领域的知识集中起来,我们能读懂他多少?我告诉大家,现在的科学进展告诉我们,这个遗传密码你可以很容易测得,但是真正从根本上从规律上能懂的部分不超过3%,我们称之为遗传密码当中的编码序列,也就是大家从中学就了解的遗传密码当中早蛋白的遗传密码,那些遗传密码的规律我们是知道的,因为我们知道中性法则,所以他的规律我们都知道了。这一部分我们只占到3%。
我当时参加了基因组计划,当时测完了,我是搞数据分析的,就找不到基因,最后我们以为我们自己的能力优先,20年前觉得有差距,最后20多个国家谁都找不到。真正过去我们认为编码蛋白的部分其实没有那么多。刚开始认为可能有10%吧,后来又少了一点,觉得又是5%吧,现在的看法大约充其量3%,这是对遗传密码认识的将近。
另外97%不是用来造蛋白的,这一部分我们叫遗传密码当中的非编码序列,这个非编码序列是很重要的,作为规律来讲,我们迄今为止,在这种情况下如何做到精准了,测了一个遗传密码只有3%,另外97%干什么的都不知道。
所以从这个简单的例子就可以看到,其实我们精准医学才处在起步阶段,我们的起步点就是分析3%,我们随着全世界科学家的努力不断的努力,这样才能做到精准。这一件事其实比其他问题都好解决,大家只要查这一篇文献就可以,大家可以看2010年12月17号的Insights。也就是说离我们最近的10年,如果把自然科学所有的领域加在一块,哪10个事最值得人们关心,第一个事就是基因组当中的暗物质,也就是指的基因组当中现在不掌握的遗传密码。迄今为止我们仅有1.5%的遗传密码是知道归位的,充其量不到3%,所以97%的遗传密码可以测得,但是不知道生物学的作用。
由于是大数据的会,简单的说对数据分析所遇到的挑战。大家知道第一个挑战很明确不说了。生物数据同样是大数据,我们一个人就是1乘10的9次方,如果一个人把这些都加在一起就远远比这个多,但是对人来说,一个特点增速非常快,由于测量速度的价格越来越便宜,所以它的速度是我知道的增速最快的数据,第一天和第二天就不一样。第二个质量目前不太好,有缺失质。这个大家知道是,这是我们双螺旋结构的发现者沃森,他发现了DNA双螺旋。
这是他自己的遗传密码,当时大约是人类会遗传密码10年以后,测他的遗传密码花了100万美金放在小盒子里,我想他看了小盒子,实际上我们知道了一些东西,但是大部分东西存在这儿,依然不知道小盒子的含义是什么。但是我们知道现在在座的马俊才教授在这儿。人的健康状态,不仅和人有关,还和肠道、唾液、微生物是相关的,如果把微生物一块测的话,存在跟人的微生物的在一起大约是人的10到100倍,这个量很多。这个不详细讲。
但是从样本源来讲,虽然我们的数据源很大,但是比如说我们要研究肿瘤,你要得到样品,你要研究肺癌,找100个肺癌的人就很难了,我跟协和的肿瘤医院院长合作,他应该是最容易得到肿瘤的,我们两个大约收集了很长时间,收集了150个试管林癌的样本,你要做某一个相关疾病的特定样品很难的。比如说肿瘤,像心脑血管病,实际上都是多基因病,它的自变量是千数量级的,但是你得到的样本,是百数量级的,这个模型是不熟练的,这样的变量都是几千个,你只能收集几百个。
所以怎么办?国际和国内,精准领域的办法就是测10万,100万样品的人群,这样的话,我的样品量的就大量的体积量数,作为我们研究组来讲,办不到这点,没有那么多钱,我们只能找到子系统,分解出子系统的自变量数,这样的话才能解决这方面的问题,这是在数据处理当中的第二个挑战。
第三个挑战,实际上同样一种疾病,发生的微观的不一样的,发生肺癌这个人是这点变了,那个人那点变了,好不容易收集了肺癌病人,他分布在10个位点上,所以这种有效事件不是百分之百出现的。是按一定频率出现的。因此我们从组学水平提出分子水平的概念,就是共同的疾病,什么是分子疾病的共同的基础,什么是个体差异,这个需要在新的组学意义上定义。
最后一个,影响某一个疾病不仅仅是每一个基因的变化,大家知道你得了肿瘤不仅仅是基因的变化,还有基因和基因的相互作用,所以,一定还要考虑个个遗传密码的相互作用,也就是说复杂的网络,包括信号传导网络,包括大分子相互作用网络,包括调控网络等等。但是,大家知道这些复杂网络是动态的,一个生命是活的,由于网络之间都是有目的的,所以它是有向的,这个复杂网络是双向的,而且本身不是单一的。
所以它可能是双色和多色的,网络和网络之间的关系是,对一个动态有向组成的非线性的网络是复杂的,数学上挑战。我们不仅仅是组学的,还要组合影像学的,有的做核磁,有的做CT。
数据共享的问题,我们知道要做大数据,现在每个医院都存在在数据,怎么在国家层面上数据共享,不仅仅是科学问题,还有管理问题,共享问题,没有大数据的共享,那就是我们在大数据的时代做小数据的工作,所以这个问题实际上是更难解决的问题。
第五个问题我要讲讲,上面都是报的困难,最后讲这些困难对我们来讲是无限的创新机遇。
我举一个例子,基因组的研究,我们的遗传密码知道3%,97%都不知道,对精准来讲是很不利的,但是对于创新来讲,但是是绝对的创新机遇。所以创新重大的机遇对我们的激动和鼓舞。
从遗传密码来讲,我们有97%不知道,问题是这97%是否有用呢?我们来看看这是不同净化水平的,这个是大干杆菌,这个生物,如果测它的遗传密码,它的遗传密码很小,整个遗传密码整个圆盘算它的遗传密码,红色部分就是掌握归类的,85%都是用来编码蛋白的,所以对一个大肠杆菌来讲,把遗传密码测了就知道它是怎么活的。但是上面中间的酵母,就要高等一点,然后我们已知归类的部分减少了,变成70%。
大家知道从信息传递的观点来讲,任何一个基础遗传要发挥生物学作用,所谓信息发放发表,就是要产生一个由它制造出来的东西,所以人们当了解这97%是有用的时候,就去找这97%的遗传密码有没有产物有没有信息发放。这个结果从人类进入21世纪以后发现来自那97%,所以这两点事实上让我们不怀疑这10%每时每刻发生着重要的作用。
下面我给大家举几个跟肿瘤相关的例子,虽然97%没有破译,但是人们关心这个变化是否会导致肿瘤。
第一个例子是,有一个东西来自那97%,最后它也发放信息,这个发放出来的信息没有蛋白,但是它产生的RA会导致前列腺癌。
这个是如果大家玛拉可1(英译),会导致非小细胞肺癌。因此你去医院看肿瘤,检查只用了3%的信息,另外的97%没有用,因为没有这个知识。只检查3%,你得了肿瘤你能判断得准吗?因为那是97%引起的。
所以现在的状况是这样的,因此治疗的话也没有把97%的变化肿瘤作为治疗的法典,所以如果是97%得的肿瘤是没有办法治的。
所以从这个意义上讲,包括肿瘤、心脑血管病,代谢疾病大部分疾病没有发现,大部分可以设计药物的把点都没有发现,所以这是巨大的机会和财富。这是我们跟协和做的例子,可以找到97%的例子来预测食管淋癌,我们做的干细胞,还有和免疫有关的,不详细讲了。
下面给大家说两个是,一个是这97%都是元件,那3%元件大概是两万五千个。我举一个日本的例子,日本估计,小鼠可以做参考。目前为止十六万一千个,目前我们只发现2000个,现在还有这么多等着大家发现。
另外一个例子,大家知道那是97%研究的科学家,是2006年一位研究97%产生长度比较小的,获得诺贝尔奖的。我们虽然有巨大的挑战,但是一个挑战给我们引发出无限的机会,所以非编码的研究对疾病的诊断治疗会有全新的平台,或者为全新的药物的设计和研发提供方向,提供全新的思考。
我就讲这些,谢谢大家。