2017年3月17日,XSUMMIT未来科技峰会在北京国家会议中心举办。
碳云智能合伙人兼高级副总裁覃璞以“数字生命——智能时代的‘模拟人生’”为主题展开分享。
【覃璞现场演讲实录】
谢谢大家!我们今天讨论的是未来科技,说到这个标题,数字生命也是碳云一直想做的一件事情,它是不是未来科技呢?它既是未来的也是现在的,甚至是过去的。我们想这个主题的时候想到一个跟游戏有关的名字,我太太是一名非常热衷于玩模拟人生的玩家,这个游戏里面可以扮演各种不同的角色,参与各种社会活动,然后可以在这个里面做一个你想活出来的人生角色,可以做各种事情。
如果换一个角度去看,我们真的能够模拟每个人的生命,确实能够把我们每一个人的一生都模拟出来。其实今天已经有很多成熟的技术,还有一些技术虽然没有使用,但是在生命科学圈子里面已经看到了。我跟大家分享一下碳云智能到底在做什么。
简单地来说,我们做三件事情。第一,我们用各种各样的生物学技术,把大家的生命进行数字化,这是碳云英文缩写里面的第二个字母(C)。第二,我们希望把所有数字化以后的这些数据理解出来,也就是去做你这个角色的设定。这件事情就是跟XSUMMIT有关的X,与人工智能有关的。最后,我们觉得生命真正有意思的,就是我能够去模拟它,去干预它,换句话说就是健康管理。
数字生命的三个基本假设
谈到这件事情,不得不谈到三个基本假设,也是生命科学最伟大的三个的前提假设。第一件事情,我们假定所有的碳基生命,所有碳原子的东西最终都能通过某种技术数字化。这个听起来有时候觉得不是那么简单的一件事情。
但是,其实我告诉大家,在今天的基因测序技术里面,人类已经做了不止一个人类的全基因组测序了,在今天有限的预算里面是可以做得到的。我们可以把基因这种碳基生命的程序进行数字化,把它的蓝图打开。
但是,整个数据不只是由一个基因构成的,基因要经过转录,形成氨基酸蛋白,然后再逐步组织成我们身体内的各种组织和器官。我们在座的每个人,都是一个巨大的蛋白质功能组的组合,这些东西才是我们平常感受到的生命。
所以,其实基因并没有决定我们一辈子的东西,它只决定了我们的起点。还有很多别的组,这里有基因组、蛋白质组,免疫组。每个组的每张切片,都可以通过数字化的记录全部捕捉下来,全部数字化,这就是碳基生命是可以被数字化的前提假设。
第二件事情,假如真的数字化,装到计算机里面,是一个可以被计算的东西。我们可以用今天所有IT技术去存储和管理它,可以用人工智能的技术去模拟它,计算它。这是第二个前提假设,所有数字化的东西都是可以被计算的。
第三,假设这些东西真的都变成一个个实体了,我们真的在模拟人生这样的游戏里面,放一个活生生的生命模拟,意味着我们可以做一个大的社会网络把他们互联起来,他们之间可以互动,像真正玩模拟人生游戏一样。第三个前提假设就是“I”。所以,这三个字就是碳云这个公司可以将其互联起来,并且可以被人工智能计算的数字生命,这就是我们要做的事情。
你的“游戏决策”影响“模拟人生”
所以,刚才提到一件事,基因科技很发达。我们要强调一点,如果从一辈子来看,基因这个程序基本没变。因为它不是真正在运行的一个程序,是一张程序的蓝图。我们生下来的时候基因基本上就已经被决定了。也就是这个程序有没有Bug,我们看这张蓝图是可以知道的。
如果有先天性疾病,只要在Bug上面找到他,就可以确定地知道这个人一辈子都会有问题。但是绝大部分99%以上的问题不能从基因里面单独决定,什么东西决定它呢?是我们自己。每天我们做的每个选择每件事情,这条黄线代表了一个人一辈子里某一种基因,对于某一种风险所固定的一个内容。
比如说,如果我生下来痛风的风险很高,并不代表我生下来就有痛风这种疾病,只是代表我生下来很容易得这种疾病。但是,实际上我的身体在发生这样的变化。
我们有那么多游戏参数在这里面,每一天你处理尿酸的相关蛋白酶活性高不高,如果很高,即使有很高的尿酸的表达,也会被这些蛋白酶给分解掉,处理掉。如果肾的功能不是特别好,反而在这件事情上会有帮助。还有一些它的免疫力,如果刚才那两件事情都做不到,但是免疫力非常强,可能一直处于高尿酸环境里面,也不会得痛风。
所以,所有这些东西,所有的参数都是我们竞技里最关键的部分,这个基因只代表你坐上电竞台。你的状态就是你的基因水平,其他所有东西都是你玩游戏过程当中所积累下来的内容,这些恰恰是原来大部分单纯做基因检测的公司所没有的。
所以,王俊总在1月5号发布会上讲过这样一个问题。前面16年他在华大基因做了这样一件事情,就是读基因,看所有的生命蓝图是什么样子。现在碳云想做另外一件事情,就是懂生命。我们想真实地看各位玩家每天决策时候,你的生命到底发生了什么变化。所以,这里有十几组除了生命以外的各种组。
接下来就可以进行干预了。每次玩模拟人生游戏是在什么状态下运行的,就可以想办法改变某一种参数,改变我可以跳得更快,可以躲得更高。同样,对我们自己来讲,大量的这些组不是进行某一种医疗诊断,更像是中医里面的“治未病”,它可以从不同的维度查看我们身体内的某种风险,和正在发生的事情。
具体是什么呢?如果把前面这件事情做到了。就是“知命”,能够量化自我。第二件事情,如果能够控制参数,优化参数,就叫“改运”了,基本上就是自我干预。所以,他们有什么技术呢?第一,生命数字量化技术,能够把这些产品做到消费者的级别上,这是未来我们要做的事情。更重要的事情就是建立一个数字生命的联盟,跟所有第三方能够做健康管理的公司合作,把原来一些不能做个性化处理的内容解决。
现在每一个游戏玩家所需要的东西,我可以比较精确地给每个游戏玩家投放他所需要的道具,这就是主动干预。所以,这个平台有一个载体,就是觅我载体,还有一个人工智能的程序可以帮助你做调度,告诉你此时此刻做什么,然后把相应的道具给你。
量化自我,捕捉你的“游戏参数”
接下来用什么样的技术进行自我量化呢?第一,各种各样的测序技术,也是我们听到最多的基因测序。这个在深圳北部我们自己的一个碳云实验室里面,就已经可以做了。还有我们会在里面做什么内容呢?会做很多别的东西,比如刚才提到的一些转录组,一些微生物组,比如微生物组测人体肠道内的微生物有哪些,看看肚子里面的情况。每个人具体样本拿过来以后,我们知道这个人肚子里是哪几千种细菌,我们可以为这名客户绘制他的肠型。因为肠型是每天都会变化的,这个并不是基因决定的,而是我们自己决定的。
还有什么东西呢?还有一些在今天生物学上很发达,但是没有办法很便宜地去实施(的技术)。刚才提到基因组控制成本已经可以做了,但有些东西还不能做。比方说在医院里面我们做的所有生理生化检测、蛋白检测,比如测C反应蛋白。所有这些内容在每次做检查的时候,只做几个蛋白。如果有一种技术能够一次性扫描身体内上万个的蛋白,我们就可以对今天这个玩家的身体状态做很完整的数字化。碳云已经投资了美国一家做蛋白质芯片检测技术的公司(SomaLogic)。
还有一种类似做抗体的,也是可以快速地扫描我们身体内上万个的抗体,可以看到什么?整个在你的生命历程中,直至今天,你接触到的所有患有感冒的身体有什么内源性的侵害,所有免疫系统的反应都可以在抗体内留下认知。检测上万个抗体我们就可能知道,在今天你整个身体战斗记录是什么样子的。它也是一种高通量的技术。
还有一些东西是我们今天已经可以去做的。比如说测量身高、腰围、腰臀比等。一个运动员要参与3个月以后的马拉松训练,每天要打开皮尺才能把30多个参数都量一遍。我们收购的一家以色列做人工智能图象处理公司帮我们做了一个算法,用摄像头在一个智能镜子的标尺上面,3分钟时间可以把所有的参数做出来。前面是把比较难量的东西量出来,这种是把量起来很麻烦的事情变得很方便。
类似还有一些别的技术,比如对于面部皮肤的技术,经过拍照以后,从图像上识别,看看你的皮肤水润情况怎么样,今天的炎症反应比上个月稍微严重了还是好一点。同样它测量起来也很麻烦,但是今天我们有帮助让它变得更容易的技术。
还有食物的识别,做一个营养的干预。我们经常做体检的时候医生说有三高,接下来一年时间要多运动,多吃蔬菜,少吃肉,你觉得挺有道理,好精准。回到家一想,其实20年前你妈妈也这么跟你讲过。也就是说有的东西,你知道是对的,但并不等于你在模拟人生里面可以做到。所以我们又做了两种东西,也是由这家的人工智能公司帮我们做的算法:一部分就是使得你吃了什么东西不用再填一张量表,只要在图片上拍一张上传就可以了。
有人会问,做这种人工智能的公司很多。但是我们做了全球最大的一个,经过几十万张图片训练,可以去识别韭菜炒鸡蛋这件事情的人工智能程序。所以,你可能不需要再说我吃了韭菜盒子,然后慢慢去查百度百科。看韭菜盒子里面有什么营养成分,然后乖乖地在一张量表上填写,你只需要拍一张照就可以。今天我们会实现所有对受控干预项目里面,所有每天吃了什么事情的一个变化。
同样,还有右下角大家看到的手环,它的特色是什么?会把所有的原始数据不经过处理直接传到云端,我们现在无非解决地是它的供电问题。它所有的数据不是告诉我们在玩的这个人今天你跑了多少步,而是直接把所有三围的传感数据、水面数据直接传输到云端,直接地参与大数据计算。所以,后面的人工智能管家不是只告诉你知道的事情。我们告诉你的是今天走哪一段路的时候,你的心率跟上一个干预周期比,现在心率补齐的症状得到多少的缓解。这件事情在健康上才有意义。
今天有很多不同的公司都在做各种各样的量化,比如用问卷和量表所做的,每天填自己感受怎么样,用什么药,用药之后疼不疼。但是最难的地方是真正做到让人工智能看得懂。今天我们在生命科学上最大的瓶颈并不在于人工智能的算法,而是在于数据的收集跟标准化。也就是说,让今天这台很聪明的机器学习是很必要的,你需要有大量的数据喂给它,并且这些数据还是得在被人干预并自愿的情况下。这件事情碳云已经做到的内容,我们会经过一个一个的计划,几百人、几千人、小批小批地获取每个人的数据。
这些数据包含哪些呢?其实就是三种东西。第一,我们需要你的生物样本,你授权的情况下,让我们来做刚才那十几种组里面的几种,不同价格做的也不一样。这个时间点你的身体真正运行的内部情况,有没有零件的问题。所有这些内容会从十几种组学维度反映出来,每个人最多有多少数据?可以一个人做到几百个TB。所以整个数据收集位点的量,有效特征的值,可以从一百万数据点到一百亿的数据点。
打造专属你的“模拟人生攻略”
所以,很多人在问,碳云为什么做这件事情,几个人可以做统计吗?我们的回答是,在生物学上可以通过对单体不断的做大数据累计。目前短期可以补偿人数不够的问题,所以我们数据分布不小,数据量还这么多。
还有你这台机器做模拟人生游戏运行的时候,北京的雾霾天多,诱发哮喘的机会就大很多。在北边张家口这边,可能同样的一个病人诱发心梗的机率就高一些呢?晚上气温比较低,这些可能都是我们会忽略的因素。我们也有一家碳云子公司在做,会提供一平方公里范围这样网格下面的所有天气数据。
最后,有了现在的内部情况,我们也有了它的外部情况,再看看经过各种干预实际情况是什么样的。我们可以把一个干预做的非常非常细。在今天如果我们退回来,从人工智能的角度来讲,我们到底做了一件什么事情?我们做了一个大概在这个数据空间上10的30次方的一个多维度数据的组合。
其实它确实已经不是基因组数据了,我们看的是一段一段之间的相互关系,我们是在解释所有刚才的这些听起来很高深,很抽象的这个组。那个组对我们平常的健康到底有什么用,我们是在做懂生命的这件事情。
接下来最后一部分,如果有了懂生命,到底道具能做什么?我们传递给所有的合作伙伴,只要你有一种健康相关的技术,包括吃的、动的、睡的、医疗上用的,如果这种东西需要大量的可配置的数据,那么碳云可以帮助这些解决方案,去把原来不那么个性化的东西做到个性化。
比如精准的营养配餐,跟配餐合作网络的试用。我们跟马拉松计划合并做了一些马拉松的运动,可以精确地为每个人做配速,这都是每个人的一种精准化的配置方式,到最后用某一种网络把它连起来。在美国已经有一家被投的公司,他们有50万病人,按照病种愈后的情况,接下来我们会跟私人医生合作,给你不同的模拟人生攻略,这就是我们现在要做的事情。
未来的“模拟人生”是什么样子?
所以,最终形态会是怎么样?10的30次方数据,已经不是传统的健康管理那样能够给人阅读了,必须通过某种人工智能程序去做。为此,我们做了一个人工智能的管家。我们其实是8家公司的一个联盟,碳云智能是这个联盟的核心公司,以一种数字生命联盟的形式,做(产业链的)上、中、下三个维度。
最终做出来的就是这样一个人工智能程序,像一个大白一样,当他完全了解你的情况,你给他插入一张应用的卡片,说我今天想精准化地运动,将运动这张卡插进去,它就能帮你做这方面的攻略。明天想知道纤体怎么样做的更好,就可以做出来。
所以这是我们用人工智能的管理能力,管理真正高通量的某种数据,对每个人提供一种可以个性化体验的服务。所以,做下来就是这样几个步骤。先经过高通量的一些技术进行数字生命量化,然后把它放到人工智能管理的一个数据平台上,消费者能够看到你现在的模拟人生,生命状态是怎么样,然后理解,就可以做精准化的干预和管理。
未来的模拟人生的体验会是什么样子?每个人可能在碳云的平台上有一个自己的“阿凡达”,就是我们在玩模拟人生游戏的那个模拟角色,它反映的是你真正生命的里程和数据。
它的数据是由你每一个行为构成的,在这里面我们最终可以去PK的,已经不是谁的游戏玩的最好,而是谁在某个方面更健康。是我在跑马拉松的时候可以中间不抽筋。我可以经过某种锻炼,让自己能够在这段的经历里面尽量少受伤,这可能是PK的内容。我可能在另一个方面上,可以用慢病管理跟整个病友做交流。这是我们可以体验到的一种未来趋势。
一句话总结一下,就是管理数字生命,建造一个智能时代的模拟人生。谢谢各位!