关于大数据、机器智能与现代医疗

编辑：　发布时间： 2015-12-8 　　文章来源：异步社区

大数据营销

　　2015年12月1日下午，冒着重度雾霾的污染，吴军博士到北京301医院，做了主题为大数据医疗的演讲，以下为演讲全文。

　　吴军：今天聊大数据是主要的，医疗少，不敢到301医院班门弄斧。我结合最近投资的一些新一代的生物医疗公司，利用大数据解决一些医疗问题的实际案例，来跟大家做分享。

　　大数据现在是非常热的题目，有的时候要问问现在是不是泡沫。它真的有用?还是每过一段时间科技界又吹起一个浪潮泡沫?回答这个问题，首先要回答什么是大数据。现在很多媒体在谈，不同媒体你仔细看，它讲的东西其实不一样，很多人对大数据本身的理解是比较片面，回答几个问题：什么是大数据?为什么大数据如此的重要?如果它很重要和我们的医疗有什么关系?

　　我先讲IT科技发展来龙去脉，它怎样产生，以及它为什么重要。过去50年，决定我们世界真正高速发展的是摩尔定律。1965年因特尔公司的创始人摩尔博士，当时还没有创立因特尔公司。他当时提出这样一个观点，在未来的10年里，半导体集成电路的处理器能力，每过一年可以翻一番，后来把速度降到18个月，但是没有想到可以有50年。所以50年以后产生什么结果，把我们全世界的所有产业改变了一次。我们今天讲一个词，经常在报纸上看到互联网+，过去某种程度上可以认为是摩尔+。我们今天大部分行业在50年前的时候都有，加上摩尔定律，就是加上半导体芯片或者加上计算机，你就变成一个新的产业。比如我们说银行业，50年前的时候大家打算盘，30年前去银行存款和取款就是这样。今天我们全部联网等等，90年代还有三金工程，就是把银行利用计算机芯片重新地造一遍，带来我们今天一个新的时代。

　　包括当时的农业，我小时候在四川种田，那个时候知道农民留种子第二年用，这是过去几年前的生产方式，但是有了计算机以后，现在的农民不留种子，因为每年去种子站买种子，所以整个的生活方式和生产方式全变。但是在制造种子的背后有计算机，再往前推，整个世界常常就是这样的，到十九世纪末的时候，我们今天大部分的行业当时存在。那个时候出现电，什么东西加上电就成为新行业，比如纺织。原来是水能纺织，后来有了电，行业发生变化。

　　大数据在往后的20年，现有行业加上大数据产生新行业，未来20年可能是这样的过程。刚才赵教授介绍现在主要的时间做投资，从投资来讲我们说可以看到未来会发生什么样的情况。今天我们投了哪一些公司，或者哪一些行业，这些可能过20年就成为整个国民经济的主体行业。大数据+机器智能，为什么大数据这么重要，可以带来机器智能让计算机很聪明。IT和生物医疗，大家听说过现在利用计算机来做DNA测序。中国过去说物联网，现在的概念比物联网更多一点IOT，实际上所有的都可以联网。每一张桌子和板凳都联网，这是将来改变世界的趋势。核心是这个大数据。

　　什么是大数据?各种媒体的说法不一，大数据不等于大量的数据。大数据的量一定是大的，但是光有大的量不一定是大数据。大数据有三个基本特征，三个基本特征除了数据量大以外，还有多维度。从很多的角度来看同一个问题，这是第二个。第三个，有一个完备性，这个完备性带来很多惊喜，带来很多我们想象不到的结果。有了这三个特征以后，大数据可以让我们的计算机变的特别聪明，可以带来机器智能。机器智能有一个可怕的地方，将来的社会和我们今天的社会会变的完全不一样。讲到机器智能大家脑子里会想到一个概念，人工智能，为什么没有用人工智能而用了机器智能这个词。因为人工智能这个词比较含糊，我们认为这是机器人发展的第一个阶段。有了计算机以后，其实人就开始想这样的问题，最早的计算机一秒钟算五千次，计算机的占地面积礼堂这么大。你手机的计算速度可能是它的十万倍，五千次当时人类觉得很快。当时的人在想有没有可能机器产生智能，因为有摩尔定律。机器哪怕今天有一个最低的智能，因为它的发展水平是成倍往上增长。我们小的时候知道成倍增长将来是很可怕的，我们小学的时候老师出题，印度国际象棋的故事，第一格一粒麦子，第二放两粒，到了十格以后就是一千粒，接下来就很快。我这里有两个图，绿线表示机器智能增长速度，这是指数增长的，可能开始的起点很低，红线是人的智能水平。一开始的时候可能水平很高，但是人类能做到直线增长不错，会在某一个时间点出现交叉，然后超过这个时间点以后机器智能水平超过人。我想说这件事情其实一定会发生，因为只要摩尔定律不断往前走，这一定会发生。而今天我们来谈这个问题，谈大数据，是因为恰恰今天我们处在这样的交叉点。以至于我们在接下来的十年、二十年机器智能可能会超过人，我说机器人的时候，可能你们又会想到一个机器人的形象。我们文学作品中给出了机器人，东方人比较人性化以阿童木的形象，西方人钢铁战士的形象。但是现实生活中这件事情没有发生，我们事实上现实生活中不需要刚才画着阿童木和变形金刚这样的机器人。一个很简单，原盘，扫地的机器人绕过各种各样的障碍把房间打扫干净，有两三台可以通信，我扫过了你不需要扫。美国航天局公布了信息，在火星上发现水，然后发明了一个机器人上去。可以在比较恶劣的环境下工作，其实上面有一个原子反应堆。通过放射性同位素慢慢的散热产生能量，可以用的时间比较长。在恶劣的环境下可以做很多人做不了的事情，讲到机器人我们还要再往回一点一点的倒。机器人有没有机器，这是第一。第二，我们怎么判断有没有智能。我们想知道有没有智能，我们要先了解一个定义什么是机器的智能。在人类发明计算机以后不久，在1950年的时候阿兰图灵博士提出了测试计算机有没有机器智能的办法，就是图灵测试。把屏幕后面放一台计算机，放一个人。就问一个问题，比如说你问天为什么是蓝色的?人出一个答案，机器给一个答案。我们在座的很多人，我们判断一下哪一个答案是机器给的，哪一个答案是人给的，如果不能判断哪一个答案更好像人给的，我们说机器和人有同等的智能。这个标准是客观的。这是结果导向的，我不问你怎么实现的机器智能，我只管最后能不能达到跟我同样的效果。

　　定义了什么是机器智能以后大家开始着手做这件事情，到目前为止机器智能经过三个发展阶段。第一个发展阶段1970年以前，我们刚才讲的人工智能阶段，所以我为什么一直没有讲人工智能。其实某种程度来讲，过去狭义上的人工智能指那一个阶段。第二阶段是数据驱动的结果，1972-2000年，因为数据量不够大。2000年至今，为什么能有大数据，很重要的一条就是我们的互联网，尤其是过去的十年有了移动互联网和传感器技术的改进。70年代以前的阶段，人工智能阶段，后来人们给它起了一个比较容易记住的名字，最早人让机器有智能就模拟人，人怎么想的就让机器想。比如我们人说要想办法走出这个礼堂，怎么走?看到这个已经有障碍你绕过去，可能它有一些经验指的道比较长可能是一个容易走出去的道，弯弯绕的可能不好走，这些经验给计算机。计算机能不能干简单的事呢?可以，但是稍微复杂一点的事做不了，这是70年代以前的情况。为什么“鸟飞派”，这样的做法有点像人类最早试图飞行的时候采取的方法，我们人类二千多年前的时候想怎么飞?就是你看鸟怎么飞你就怎么飞，不管是中国人还是西方人都有记载，把胳膊上绑了鸟的翅膀从树上往下跳最后摔惨了，这是最早的做法。这条路后来走不通，最早的人工智能也是这么做的，后来我们人是怎么飞上天的呢?就是研究空气动力学，你知道飞行的原理，飞机翅膀做成上面弧线的下面是平的，空气中滑过去。70年代以前，人类基本上是自发的状态来研究机器智能。这条路到了60年代末走不通，所以当时大家就开始琢磨到底是什么原因，有一个很有名的计算机科学家明斯基，他举了一个简单的例子说明为什么过去的方法走不通。这个例子是这样的，这有两个英语的句子，第一个句子讲钢笔在盒子里。第二说盒子在钢笔里面，盒子难道可以塞在钢笔里面吗，这是不可能的。英语里面的钢笔还是有另外的意思，就是小孩的围栏。但是按照过去人工智能的方法，你把句子像我们学习英语一下分成主谓宾，无法理解pen到底是钢笔还是围栏。别说小东西放在大东西里的知识，不是根据这两句话得到的，这是根据我们生活的经验得到的。世界的知识，计算机缺失的是世界的知识，计算机没有这样的经验，这是过去人工智能解决不了的问题。具体到这样的语言环境下，你怎么知道pen应该是围栏还是钢笔，需要知道钢笔有多大，围栏有多大，这个时候怎么知道的，我们也是根据生活的经验知道的。我们不是说把这篇文章读完了就知道，这是不可能的。所以明斯基说这样的方法走不通，很简单的例子很有说服力，70年代美国政府把人工智能的科研经费停下来。90年代的时候有一个人想怎么让计算机解决智能的问题，贾里米克到IBM工作了一年。70年代的时候IBM想怎么让计算机聪明一点，IBM一家占计算机产业营业额的2/3，剩下的有七家类似的公司，还有两家比他们小一点的公司，加起来都不如一家，当时有一个说法白雪公主和七个矮人。白雪公主是IBM，剩下的计算机公司是七个矮人。所以它在怎么往前走，就要想让计算机不是做的更快而是更加聪明，因为大家做不够，不可能跟它一样做的很快。

　　怎么让计算机有智能，当时大家有测试的方法，如果你做到这几点我认为你有智能。比如可以听懂人说话，再有就是可以把中文翻译成英文，或者下象棋可以战胜人类的世界冠军。所以他做了一件事情，让计算机可以懂得人的语言。贾里米克之前有很多人帮他，做到差不多可以识别一百多个左右的英文单词，识别的错误率是30%。就是你每识别十个字错三个字，这是不可用的，你不信把一本书拿过来，十个字扣掉三个字这句话读不懂。他自己从来不是人工智能的专家，他是通信专家。他看待这个问题和别人不一样，他说这是通信问题，识别人语音的问题，理解人语音的问题这是通信问题。我们现在说一句话，我脑子里有一个概念，我把它编码，编码编成了我们的语言，通过我的嗓子和空气传播，你耳朵听到了，你的脑子会回复到我要讲的意思。开始这是一个编码的过程，把我的意思变成文字传输出去。中间是传输的过程，这是脑子接收的过程，这跟通信系统是完全一样的。既然跟通信系统一样，解决通信问题的数学模型就可以拿过来解决语音识别模型，它就是这样做的，这么做带来一个什么结果，当然有两个条件，为什么这件事情在IBM可以做成，因为70年代只有IBM有这样的计算能力。IBM有一些数据在其它的地方没有，所以说这个方法后来又被称为是数据驱动的方法。它做到什么样的效果，可以识别二万二千个英文单词，从不到一百个增加到了二万二千个。通过这样的方法基本上解决了云识别的问题，后来大家说既然利用这样的数学模型和数据驱动的方法可以解决语音识别问题，我能不能解决其它的智能问题。有人说机器翻译也可以解决，有人试图做图像的识别，包括今天一些医学影像问题，就是数据驱动的方法让计算机变的聪明。当时还没有大数据，数据量不够的时候效果就不好，你们医生也是，为什么中国医生的临床水平比美国平均高一些。原因在于见到病人的病例以后，说穿了就是数据量大你的水平就高，到底高到什么样的程度才算高。有人说高到了一定的程度以后没有用了，就像比如说我们医生做手术，简单的割阑尾的手术，一百例和一千例的水平里你找到问题，代表的人物就是盖洛普，他认为数据量足够就可以。他认为更重要的就是我要取样，使得我取得数据有代表性。今天像各位研究病例的时候也是这样的，我要取一些有代表性的病例，我取有代表性足够强，我覆盖的面就足够广，这是过去的观点。为什么过去是这样的观点，很重要的一条因为计算机不够发达，使得你不可能把所有的数据全部都处理一遍，所以你只能处理少量，怎么可以处理少量比较好呢，就是具有代表性，这是一条。

　　数据量足够大了以后，到了特别多的时候，会不会带来新的变化，在过去是不知道的，因为过去是从来没有过这么大的数据。这件事2004年-2005年就发生变化，这儿有一些数据。2005年的时候，美国国家标准化局做了这样的评测，就是把全世界机器翻译系统，就是中文英文翻译，阿拉伯文到英文翻译做测试。根据美国政府的规定是这样的，你拿了美国政府的科研经费是一定得参加这个测试的，如果你没有拿的话也可以参加。参加就是打擂台，别管没拿钱的，还是拿了钱参加的，凡是参加了就要说一说你是怎么做的，这样形成了大家的交流。一边是中文到英文的，一边是阿拉伯文到中文的。一组是封闭测试机，一种是开放测试机。这是机器翻译的结果和人翻译的结果做一个比对，有多大的一致性。第一名是Google35%多一点，第二名是30%，差了5个百分点。差了5个百分点，在这个机器翻译的领域大概有多大的差距呢?如果说按照纯粹靠科研水平的提升，每年可以提升半个百分点，5个百分点要差出十年来，十年来在IT行业基本上就差了一代，不仅IT行业了，我估计医学也是这样。今天的医疗方法与十年前的基本上差出一代。Google系统，南加州大学，德国的公司。有一个人原来在德国毕业，到美国任教，到Google。大家很好奇怎么提高了5个百分点。因为参加评测的团队都要讲讲怎么做的，一讲出来大家觉得没有什么秘密可言。因为他用了别人一万倍的数据，一万倍的数据了不得。因为以前我们讲做统计的大家知道，总有一些落在相当于标准差以外的情况，你统计不进去。一万倍就是把几乎所有边边角角的东西都包含在里面，常见的英文怎么翻译的都看到了，所以结果就不一样。

　　当你的数据量大到一定的程度，量变带来质变，计算机变的非常聪明。为什么今天讲大数据非常重要的原因，当你的数据量小的时候，觉得没有什么了不得的，很多的规律都认识。当它大到一万倍的时候奇迹发生，这是我讲的数据量大。多维度的重要性，举一个很简单的例子吧。三年前，百度公布了四五百次的报道，他们利用7700万个百度知道的问题对它进行统计，了解中国各个地区的饮食情况，大家有一些什么习惯。他们发现很有意思的事情，各地方不同的经济发展地区和饮食习惯的问题是不一样的。广东人和福建人他们喜欢问说什么东西不能吃，因为那个时候在深圳的时候，当地人告诉我说除了四条腿的桌子板凳不能吃，其它的都可以吃。西北地区稍微经济落后一点的，大家问什么东西可以吃，问什么东西可以吃，各地区也是不一样的。广东和云南就问虫子能不能吃，有的人爱吃虫子。宁夏没有螃蟹就问螃蟹能不能吃，这说明什么?这些统计结果没有进行任何问卷调查得到了这样的一些结论。其实还是蛮准的，这些东西利用当年盖洛普的方法也可以得到，当然了这个成本很高。有一些时候未必准确，待会儿再讲为什么未必准确。因为百度可能怕引起你对隐私的关注，很多的结论其实不会告诉你的，其实可以得到很多你想想不到的统计结果，因为有很多维度。比如你用什么样的计算机问的问题，你在上班的时间吗?你在什么时候问的问题?机关的工作人员如果说底层的工作人员不是很忙的时候，有的时候早上九到十点互联网的流量一下子上去因为上班了，就是在机关部门一到了办公室第一件事先看网上有什么东西，这个时候可能知道这是一个什么样的人。利用什么样的计算机，利用什么样的浏览器可以知道它的文化水平和收入状况。有的问题是手机问的，男生和女生用的手机其实是不一样的，不同的收入也是不一样的。IT人是夜猫子，可能晚上问问题等等都是不一样的。可以知道不同年龄的人，不同职业的人饮食习惯。这个跨度是很多年，不同的年份各地方的经济发展不一样，可以发现同一个地区在不同的经济发展下，不同的GDP水平大家对饮食的关注水平也是不一样的，这是数据多维度的特征，这是大数据的特征。这些东西要通过问卷调查来得到，这就会比较困难。

　　大数据的完备性，这是一件很可怕的事情。刚才讲了盖洛普的调查。他每次预测美国总统大选的结果，时灵时不灵，有预测对的，也有预测错的。盖洛普没有完全预测对50个州的竞选结果，为什么每一个州这么重要呢?了解美国大选的话就可以知道，其实不是一人一票制的，每个州赢者通吃，民主党和共和党候选人一个人得了50.1%的选票，另外一个得了49.9%的选票。那么就把加州选票都拿走了。红色代表政策上倾斜共和党，蓝色的代表选择民主党为候选人的州，这是2012年美国总统选举时有一个搞统计的硕士。Nate Silver做了一个测试，正确率100%。这是在美国历届的总统大选预测最准的，他把网上、报纸上的博客上的Facebook的等等所有东西都了解，各个地区的都统计上来，然后看民众的意向。其实仔细想这个问题也是这样的，假设有一个办法说在大选的前一天晚上，挨个儿问你们明天打算选谁，然后知道这样的结果，预测肯定就是100%的。这件事情在过去不需要想，因为根本做不到，但是在今天这件事情有可能做到，所以这是为什么说在今天的状态下我们提大数据，十年前我们不提大数据，因为十年前我们做不到。传感器的技术，街道上很多的摄像头，这些都采集数据，这个量很大，而且这个数据很完备。1996年，IBM想让计算机变的聪明，它做了一件事情，让人类的国际象棋冠军卡斯帕罗夫跟电脑下棋，第一盘深蓝赢了，它把卡斯帕罗夫的棋谱分析了一遍，就了解卡斯帕罗夫。第二盘开始变招了，这个计算机就不灵光了，第一次4：2，卡斯帕罗夫胜。第二次的时候，IBM团队把世界上可以找到的大师的下棋走法都搜集，然后还找了好几百个国际象棋的大师，就是我们知道最高的特级大师，把数据录入到计算机中，让计算机可以懂得这个数据，把这个整理起来。这个时候具备了数据的完备性，每到一个情况下我们一般人能够想到是怎么走就知道了，然后再下一次，这回深蓝3.5：2.5赢了卡斯帕罗夫。从这个以后，基本上现在人类的冠军现在是下不过计算机了，所以计算机也就不再制造更加复杂的程序了。

　　大数据今天这么重要，是因为思维方式的改变，bigdata不是数据的数量多，而是说本身是思维方式的改变。什么样的思维方式改变?我们尽可能找全急，而不是找最有代表性的样本，这件事情在以前做不到，现在有可能做到。对一个事情侧面的了解，争取有一个整体的了解。假如说从很多的角度看同样的问题，凑在一起去就有了这个问题完全真实的描述。比如我们说可穿戴的设备其实就是这样的，比如说我们来测监控心跳。包括以前我的母亲也是，她的心脏不好，但是每次去医院做心电图做不出来，因为到那个时候就没有问题了。现在可穿戴设备可以完全监控你，虽然不是很准，但是包括心跳的停跳这还是可以的，可以监控出来的。可以监控你7×24小时不断的数据拿来，这和你过去说我到医院的时候躺在床上做一次心电图的数据可以反映真实的程度不一样。找因果关系改成找相互性的关系，因果关系很重要，我们中学开始老师就教你，我们要找因果关系。我们要知道水为什么会变成冰，有原因，有结果。天冷了水变成冰，这是原因带来的结果。到医学的时候，现在还没有大数据以前，其实大家发现很多的时候因果关系很难找到的，今天很多的制药公司找相关性，大数据也是这样。大量的数据统计结果找到了相关性，然后再反推因果关系，这是思维关系的变化。我们以前结果是因果关系，所以这个完全变了。再有一点，过去在数据时代，我们基本上讲究数据的准确性，要允许有噪音。尽可能不要有噪音的数据等等，大数据是什么，就是一定有噪音进来的，这带来一个新的思维方式改变。我如何利用大量有噪音的数据来还原一个真实的情况，所以我有的时候老是讲大数据处理、数据挖掘，相当于在一堆沙子里里面有两粒金子，你要有本事挖出来，不可能指望说完全是干干净净的很多数据等着你。为什么大数据在今天的时间点爆发，因为有了互联网，尤其是移动互联网以后，这个数据量增加的非常快。过去这是差不多5年的曲线，第一个点是五年前，现在是今天2015年。数据量增加50倍，存储量增加44倍，数据量是所有互联网跟这有关的，增加最快的。我们说移动互联网增加很快，增加了26倍，数据量增加的最快。所以现在来讲的话，基本上就是世界进入了从过去摩尔定律这样的，我们所有的产业再加上计算机。比如说医学过去也是这样的，你加上一个医学影像再加计算机产生新的产业，这变成了某一个产业加大数据产生了一个新产业。

　　为了帮助大家来理解，我举三个例子，其实大数据不知不觉的改变着我们的世界。第一个例子，高端的时装品牌PRADA，有人去一些比较精品的时装店就可以看，有一些最漂亮的衣服放在正中间，旁边放一些折价的，一边男装，一边女装。为什么这么放呢?其实没有人知道为什么这么放，就是大家拍脑袋想的。这个衣服卖的好，是因为放在显眼的位置还是衣服做的好，没有人知道，完全凭借着经验。曾经我问过一个在北京开一家香奈儿的精品店的人，我说你的店怎么设计的呢?他说为了确定最后的摆放方式，1：1模型做三个，最后为什么做这个?巴黎来了一个有经验的人说这样摆就好。衣服卖不掉也没有人知道怎么回事。PRADA做了一件事情，把试衣间改装一下，在衣服里放了芯片。衣服拿下了以后到了试衣间试就可以知道，试了多长的时间也可以知道。你穿一下子马上扔了也是试一次，试了很长时间也是试。你可以想象一下，通过增加了这点数据，最后发现有一些衣服可能放在比较显眼的地方，大家确实也觉得比较好看，不断的拿进去试衣间，试完了以后不买，这说明一个问题，说明这个衣服哪儿做的不好。以前没有人知道怎么回事，就通过这个数据就把这个衣服的设计做了一些改变，或者说把一些摆放做了改变，差不多可以增加5%-10%的营业额。这不需要做很费劲的事情，做很小的事情就可以。这就是大数据对一个传统行业的帮助。

　　第二个例子TARGET，这是美国的连锁店。百货店都有一些数据，只是过去大家不搜集。包括现在大家去家乐福买东西，付现金还是刷卡打一张小票回来，其实它也不知道打印给了谁。今天去第一次买了盐，第二次买了糖，它不知道这是两个人。美国以前是这样的，大家一般刷信用卡，然后打完了小票以后留着，因为到月底可能跟信用卡对账，很麻烦的搜集小票。后来有了手机以后，有了移动互联网等等人们开始说能不能给一个手机号发给你，或者说给我邮箱发给你。实际上可以把不同的人连接起来，数据怎么用也不知道。后来他们雇了一个搞统计的硕士，也不是什么大科学家。他说这可能有一些数据看看可以做什么事情，这个人他做了一些统计，发现有一些共性问题。数据量大了会发现有一些共性，比如孕妇她在怀孕的不同阶段，她买东西都大同小异。差不多5个月的时候，需要买孕妇装，到了快生的时候可能要买宝宝服，到了临产前几天买奶粉，买小孩的尿布等等。既然知道这个，看了前面买了东西大概知道在什么样的状态，然后给你发优惠券，然后你就去了。去了以后这个生意就持续下去了，这个很好的。直到有一天有一个非常愤怒的爸爸打过来电话给客服，开始的时候那个客服经理不知道怎么回事，后来问到底怎么回事。他说我的女儿才14岁，你们就给她推荐孕妇的东西，所以经理很紧张，是不是数据搞错了，把别的数据搞在她的头上了，然后就道歉。道歉完了以后，把他安抚下来了，过了一个星期以后，客服经理还是比较负责任的，他就打电话回访了一下，上次我们处理的意见您是否满意。这次这个父亲跟他说了一句话让他大吃一惊，他说对不起，上次是我搞错了，我的女儿真怀孕了。有了大数据的时候，有的时候商店比他们家里人更加知道家里发生了什么事情。

　　第三个例子风能发电机的公司，(金峰)世界占有率第二位。中国的制造量很大，但是不赚钱，有各种各样的原因。其中一个原因，他们说我们造出来的风车巴西人过来买，买了一百架，放在哪儿也不知道，因为当地的工程承包商买走就装，用的怎么样也不知道。有一天告诉我们说这掉了一个叶片修一下，除非是这样的。哪儿接下来可能会买的多，哪儿买的少，其实也是不知道的。后来跟我经常聊一些这个事，后来做了一件什么事情，在上面装了很多的传感器，就把风速转的情况，因为知道卖到了世界什么地方去，使用的情况也知道。比如说哪一些地方的风速很大，可能知道还会再买它的，有的地方可能根本不怎么用的，以后这个市场不需要考虑了。再有就是这个叶片，用了10-15年的时间，可能转的就会疲劳，疲劳就会断掉，断掉不得了，开始的时候不认为这是什么不得了的事情。真实的家伙10-20层楼，这么大的叶片掉下来很可怕。很多的时候没有到坏的时候一定要给人家换的，后来装了一些测量金属疲劳的传感器以后，有的地方可能转的比较快一些，也许10年的寿命8年就应该坏了，有的地方用了15年就不需要换。这个生意原来都是统一的，每一单子都变成了不同的。全国世界封闭的，因为这是世界第二大的占有率，全世界风能的分布基本上摸清楚了，这是大数据的结果。原来我给大家讲课的时候，讲到这儿基本上结论就结束了。今年春天的时候又讲了一个新的故事，他们的人说吴总啊，我听了你很多的讲课以后，我也改了商业模式。现在不造发电机了，我有技术，中国还有更小的制作上，让他们做。全世界的东西在哪儿是什么状态我都知道，我收服务的钱。这就是大数据带来思维的变化。

　　大数据的关键是技术。

　　数据搜集，现在很多人说大数据医疗，其实手上没有数据，谁有了数据很重要。Google花了30多亿美金买了只有二百多万用户的小公司Nest，智能空调的控制。因为可以搜集你的很多数据，在你的房顶上装了一个设备，比如你家里有三四个房间，有客厅，卧室，厨房，过一段时间知道你的习惯。几点从房间走到哪一个房间，比如说到了晚上的时候，离开厨房的时候厨房暖气不需要开了，十点钟要到卧室睡觉，差不多可能提前十分钟就把卧室的暖气烧上了，就是做这样的一件事情。其实这个目的并不是说给你省多少电，就是通过这个了解你们每个人生活的习性。为什么愿意花很多的钱，搜集数据这是很重要的事情在大数据的时代。

　　数据的表示、检索和随机访问也是问题，尤其是医学的数据。因为文字的数据，图像的数据很好办。基因的数据、DNA的数据几十兆很难，这一段怎么可以直接的做匹配，文字很容易的，但是这个怎么做随机的访问，这是一个难点。还有很重要的，大数据是一堆沙子，怎么挑出金子就是数据挖据。如果有一堆数据不会用，这也是白费。其实在现在有一些公司，包括Google、微软等等公司，大概有40%甚至到一半的工程师天天做的事情，就是根据各种各样的用户数据进行挖掘，然后改进产品，所以这是一个思维方式的改变。机器学习，怎么利用一个算法能够利用数据，使得计算机变的聪明。

　　2012-2014年之间，我回到Google以后做了这件事情。让计算机能够回答人的问题，刚才我开始讲了图灵说屏幕后面有计算机和人，你分不清楚哪一个是人，哪一个是计算机，说明人和计算机同等智能。但是经过五六十年的发展，计算机科学这件事情做不到，简单的问题可以回答。中国国家主席是谁，或者说301医院的院长是谁，事实的问题很容易回答。比较难回答的问题有两种，一种就是为什么，讲道理的问题。再有一个就是怎么做，天为什么是蓝的，怎么做蛋糕。我们在Google重点解决这样的问题，这是我们利用计算机产生的答案，就是回答天为什么是蓝色的。因为有散射的作用，蓝光反射到天上，红光投射下来，所以天是蓝色的。产生这个东西不是通过我们讲的因果关系和逻辑推理，而是把智能的问题变成数据的问题。具体怎么做?我们把互联网可以找的所有内容，别管跟这个问题有没有关系，所有能找到的网页每一句话，我们都做了语法和语义的分析，这个计算量大得不得了，每一句话都做。你问这个问题的时候，我们就去找相关的一些小片段，然后通过一些方法来合成这个答案。这是什么?这个答案在网络上已经在某种程度上存在，我做的不过就是一个合成的工作。所以这改变了我们过去的思维方式，过去的思维方式我们学了物理学原理，然后应用在这上面，这是很重要的。现在不是这样的，现在相当于老师考试，给你出一道题，怎么推理不知道，但是看每一个同学的答案，看完了以后我自己综合凑出一个答案，这是一个新的思维方式。

　　Google的无人驾驶汽车，2004年的时候美国有两个经济学家，他们在琢磨说世界上有哪一些事是人可以做的，计算机在20年内做不到的，他们想到了开车，开车的这件事情很困难。一个就是眼观六路，耳听八方。2004年的时候美国海做了一次测试，就机器翻译做测试，开车也做测试。大家所有搞无人驾驶汽车的都跑到路上开开看，第一名开了8英里13公里抛锚，花了好几个小时开了13公里，跟走路差不多快。剩下的提前撞车，要不开始抛锚。经济学家有一个自信，这件事情计算机做不了，但是过了六年到了2010年的时候，Google的无人驾驶汽车出来，在马路上跑了13万英里，出了一次交通事故是后面的车把它撞了。这种车守规矩，很多的人到了红绿灯的时候是加速冲过去的，所以就把它给撞了。为什么六年可以做到这点，其实不是按照过去的思维方式开车，比如说开始讲的到了这个礼堂这儿，看这条路往前开，开到这儿有一个门知道不能开了，然后再转弯。实际上是Google另外一个项目的延伸，就是街景项目，我不知道听说过没有。腾讯和百度其实也有，这个车可以去的地方就是扫街的地方。这个车有十几个传感起每秒钟搜集几十次的数据，到了一个地方知道不同的时间点那的交通情况。下午四点钟这个地方开始堵了车会比较慢，前面的行人比较多，中午12点的时候可能会比较顺畅等等。它不会走到哪儿不知道应该怎么走了，因为以前走过好几遍了，事先都算好了。为什么大数据很有用，或者说很重要，把一个智能问题变成了数据处理的问题，所以在接下来的很多年里都是这样的，不断的把智能问题变成数据处理的问题，这个时候计算机变的越来越聪明。接下来不得不面临一个问题要回答，未来的世界是人的世界还是机器的世界。计算机会取代一些简单的工作，就是富士康的工厂，郭台铭说以后不剥削大家的血汗，以后让机器人来做。将来的问题就是想出卖血汗都没有地方出卖了，这是特斯拉的生产线。

　　大家说跟我们没有关系，我们这是高大上的职业。美国最高大上的职业是放射科的医生，当然了还有数量很少的，比如说做脑和心脏手术的。我的女儿在高中的时候在斯坦福医学院做过一次暑假实习，她说这不是，人家的那些住院医生跟她讲，美国本科毕业了以后才能进医学院，不可能说本科选择医学这是不可能的事，这个时间很长。就讲了两个例子，你高中毕业了，她高中毕业将来打算医学院，另外就是直接上大学。进医学院至少四年，读完了四年以后工作的可能已经开始准备结婚生子了。四年医学院毕业了以后在美国做两年的实习，那个人真的是已经生完了孩子，做完了住院医生以后在美国可以当家庭医生，就是普通的内科，当放射科的需要做2-4年的专科的实习，那个人可能生完了孩子，孩子也长了两三岁，自己的事业上小有成就了。放射科的医生才拿到第一份工作，但是可以很自豪地跟你讲，我的年薪50万美元，这是过去美国放射科医生的路子。这是未来前景。自动的癌细胞识别，不受心理的影响。比如今天我们出了一次交通事故，或者说被警察给抓了一次，吃罚单一天都不舒服，看片子的准确率就会差，但是计算机不受影响。在Google有一个例子，有一个高中生他拿到了二百万例的乳腺癌患者的医学数据，他做一个方法可以决定活检，从哪儿插进去，插多深来取细胞。通过这二百万例的数据分析给出这样的方案，这比任何有经验的医生其实做的都已经准，准确率，召回率，一个是97%，一个98%。这还只是一个高中生的水平，这说明什么?当你大数据真正到来的时候，实际上真正改变我们很多的行业，包括医疗的行业。

　　美国大家搞研究的时候计算机看病，输入化验结果，有一些自然语言处理可以读档案。对病情的描述等等，大概做一个判断，判断到什么水平，今天医生的平均水平，当然了比中国的三甲医院差了很多，比301差了更多。非洲本来也没有医生，有总比没有强，大概做到这样的水平。这里他们有几个关键的因素，那么多的化验结果，比如说他们有十种化验结果，不一定是一次化验，有很多的化验结果，怎么可以利用一个统一的数学模型能够对它做一个比较准确的判断，这是一个比较有挑战的。再有就是怎么读这个病例，因为这个病例是不同人写的，这跟读报纸不一样的，怎么可以读对这是比较有挑战的问题。美国还有一个案例跟这个相关的，律师。跟律师相关的行业，这也是美国高大上的行业。美国最难进的有两个学院，医学院和法学院，医学院比法学院难很多，医学院录取率2%。

　　一个亿什么概念?这是美国Google公司跟另外一家公司打知识产权官司，打赢了花了一个亿。一千六百万，平均和三星很多场官司中的一场打和解掉，苹果觉得不服气，所以跟三星说有一些律师费需要三星承担一千六百万。到今天为止苹果和三星打官司打掉的钱三亿到五亿。十万，硅谷的小公司打官司没有钱，花了两万美元买了语言软件读法律档案，美国是叛逆的法律。

　　美国现在的失业率不到5%，比08年的时候好了很多。金融危机以前美国的失业率是百分之五点几，但是有一种工作丢掉了没有回来。华尔街的工作，低端的分析师被计算机取代，就是被机器智能取代读一些财经新闻，比如华尔街日报的财经新闻基本都是机器写的，记者也没工作。前一阵子可能有一个新闻，我不知道有没有注意，凤凰网说裁掉一些人。他们说收购了一家公司自动的找新闻，不需要人找了，人一天找十个新闻，这个可以找一千个，然后再让人编辑就可以了，所以说明很多的行业其实现在机器智能慢慢的在取代人。

　　到底是人的世界还是机器的世界，机器本身是不会控制人的，这是数学的算法，它不会控制你的。但是制造的智能机器的人会控制人，我不知道有多少人用微信，天天用微信，其实某种程度上是被腾讯绑架了，或者说天天用淘宝跟TARGET的故事一样的，你是被淘宝绑架的，马云比你更早知道你们家的洗碗液用完了。

　　最近听到一个新闻，谷歌改了一个名字AlphaBet，其中有一个很重要的公司calico，这是做大数据医疗的公司。成立这个公司的时候，请了Arthur Levinson，他是苹果公司董事会的主席。他来了以后做什么事情，他希望通过大数据医疗解决人类的一些健康问题，跟他现在在世界上打对台戏的公司是Human longevity，最早是加州大学圣地亚哥学校的，有人类第一个全基因的图谱数据。在一年多前的时候，他们请了Google做机器翻译的首席科学家Franz，两个星期和Franz聊了一些情况。Human longevity在做什么呢，就是做全基因的测序，现在你给它一万五千美元可以全身测试一次。我们大家知道其实光测基因是没有用的，如果你不知道和疾病是怎么对应的。否则的话在这个行业有一句话，输入的是垃圾，输出的还是垃圾，因为得到了这么一堆数据没有用。这个公司的优势在哪儿?原来是医学院出来的，所以说有病人所有的其它信息，不光是乳腺癌的患者，有所有其它的信息，这个可以对应上的。而像华大基因，人家委托它来测序的时候，是没有这个东西的，不知道是谁给你的东西，测出一堆数据来也不知道干什么用的，就是有这样的差别。现在基因泰克自己不做测序，现在委托人类长寿这家公司来做。现在的估值已经到了14亿美元，Arthur Levinson在Google有一个观点，他说为什么不存在抗癌的万能药，因为癌细胞是变的。我们知道正常的细胞复制错了就变成癌细胞，没有被杀死就长大了。里面有某一个特征，所以基因泰克做了一个药根据这个特征把细胞杀死，这是很好的。我们经常听到故事是这样的，这个人本来都已经很多年癌被控制的很好，后来突然一夜之间复发，过了三个星期没了。因为他的细胞变了，原来的药变了，来不及知道就挂了。有什么办法?过去制造一种万能药的思路已经不对，像我们过去说利用青霉素把这个细胞给破了，所有的细菌细胞都死了，这样的想法已经不合适了。如果可以有一个办法针对每个人研制一种药，一个团队跟着走，他的基因怎么变我怎么改，然后我研制就好了，这是当时的想法。但是了这个成本很高的，要多少钱，一个人需要10亿美元，这件事情是不可能的乔布斯是可以掏钱，但是他不信这个医学，没有办法。这个即使有十亿的美元，但是你的速度能不能跟的上癌细胞的变化。为什么基因泰克和Human longevity合作呢?他们做的是什么事情?基因泰克自己讲，现在它们搞的抗癌药对乳腺癌其实只有20%几的人基因管用，剩下的都不大管用。可以说我再根据另外一些人的基因，可能有这一类的变化已经做的很好，另外还有一些变化需要再找人。第二次不是那么幸运，你可能找了很多人找了5%，再找一点人找了3%，最后把人口全覆盖起来这是很困难的事情。所以估计差不多要找一百万患者，做全图谱的基因测序，然后再把人工算进去。Human longevity是怎么做的，基本上就是希望通过机器学习的办法找出这些人可能之间很奇怪的地方，然后有了奇怪的地方，然后再找基因泰克的科学家再研究，是不是可能病变的地方，或者说如果可能是的话怎么针对做药?每一种情况都考虑清楚。

　　Arthur Levinson有一个测算，针对每一个人制造一种药，这是一种特殊的药，针对某一个患者的，差不多一个人五千美元就够了。这样的话有一些疾病才能真正的得到救治。美国现在的医疗现状，为什么大数据要提的很紧迫，因为这个国家已经不堪医疗的负担，我不知道中国的医疗占GDP多少。这是一个月前在约翰霍普金斯大学开会的时候他们给我的数据，今天差不多18%的GDP用在医疗上，2020年估计增加20%，为什么美国老发国债因为钱不够用。还有法律制度的问题，成本高是因为律师和被赔偿的病患拿走了太多的钱，美国每收两块钱的医疗费用，一块钱保险看病，另外一块钱给特别倒霉的人，还有就是给那些人打官司的律师拿走了。为什么几乎所有的医疗界对奥巴马的医疗改革一致是反对的意见，原因很简单，因为律师拿走了一半的钱，但是奥巴马自己是律师，他不动律师的一半利益动了医生的利益，说你们能不能少收一点钱，所以说这件事情在美国推不动，就是很简单的道理。还有医疗制度，美国的医生宣誓，不是救死扶伤。大概的意思就是，不要把事情变坏。有一整套的条例与过程，这个过程是不能逾越。明明有癌症的患者，可能用比较大胆的方法可以治的，但是医院说别做，闯祸了还有律师在那，告我们不得了。约翰霍普金斯给的数据，30%的住院病人情况变坏，医学院和公共卫生学院一直有矛盾。现有的医疗系统一定解决不了这些问题，需要利用外部力量，需要大数据医疗解决四个问题。改进制药。现有的处方药能不能再利用，这是大家关心的问题，就是降低医疗成本。还有基因技术。还有就是自动诊断。

　　20年的时间加20亿美元的投入，这是研制一款处方药的成本，20年的时间怎么算的。发表最重要的那篇论文为准，最早医学院开始做，做完了以后有风险投资给他们投资做临床，他们要把这个卖掉，有更大的风险投资，三期需要做很多的病人，这个时候风险投资投不起了，辉瑞就买下来再投几个亿把药做出来。美国的专利只有17+3年的时间，这一套走下来的时候，这个药从最早的专利，开始我以为药品上市以后专利才算数的，不是的。从开始研究的过程中，可能开始做小白耗子实验就开始了专利，可能13年就过去了，要在最后的7年把所有的药钱挣回来，这是美国处方药卖的贵的原因。现在的方法上现在几乎很难挣钱，医药公司不愿意投入钱研制新药，这是一个非常大的问题。旧药能不能利用，我女儿在斯坦福医学院做实习就发现这样的情况，原来有一款制心脏病的药，现在发现治胃病的效果很好。她说美国有五千种处方药，常见的疾病一万种，做了一个配对。配对完了以后，找到有一种治心脏病的药治胃病很好，直接从小白鼠开始做起，临床不需要做三期，这样做下来成本差不多一个亿美元，时间最短可以到三年。现在一些制药公司利用这样的方式，把一些现有的处方药重新的组合利用，一种药不行，可以几种组合利用。

　　降低医疗成本，为什么美国的保费贵?因为医院的浪费太多，有的病人来回来去去急诊室，去急诊室上千美元。保险公司不堪赔付找了微软，说能不能分析看看哪一些病人可以预防一下，别老去急诊室了。微软就分析了，二百万的特征中挑选出来十几个比较关键的特征。如果这个病人到了急诊室第一次打了点滴，说这个人一定得回访，再进急诊室的概率很高，你要提醒他，通过这样的方式把进急诊室的方式降低很多。防病比治疗更加重要，美国60年代的时候希望通过医学的改进延长人的寿命，经过了十年的努力增加了0.7岁。到70年代的时候发现这条路已经走不通了，就做防病，大家别吃这么胖，少吃脂肪和糖等等，经常做体检。通过这样的方式，人的寿命延长了3.5岁，所以经过70年代和80年代以及90年代，美国过去在发达国家中其实不是很好的，但是现在的人均寿命还可以。Human longevity这是世界上自动测序做的最好的，现在的成本是超过一万，比较乐观的估计很快会降低到一千美元以下。即使是一千美元也是很贵的，延迟治疗乳腺癌的药，一百万人测序也是十亿美元的成本，加在一种药上还是很贵的。23AndMe得到了一百万人的数据，给它一百块钱给你搜集唾液的袋子，搜集完了以后寄过去，但是不能进行全部的基因测序。只知道30多种疾病，可以知道30多种疾病将来有没有可能得，无论是新生物公司，还是制药企业，就会发现Outcome，基因带来什么样的结果不知道。以前的IT公司也好，很多的公司也好，这是无法知道的，这也是最难的一点。Arthur Levinson来了Google以后，不到半年的时间花了十亿美元，他是世界上最好的做生物系统的专家，他做事情不是每一个领域的专家，他需要把所有的事情让医学院和研究院做，所以十亿美金做科研。Google还做了一件事情，就是大数据的存储表达等等，和斯坦福医学院和杜克大学医学院在一起搞了五千个人，也不是它搞了五千人，一个在东海岸，有的在西海岸，每家2500人。跟他们签协议，五年内所有的数据都可以采集，因为你参加我的计划。这个项目是基准，希望作为美国今后大数据医疗和基因技术的基准，东西东海岸和西海岸各2500人，五年的时间采集数据，全部的费用Google来出。在美国有数据很重要，医学数据比较多的就是麻省理工学院和哈佛大学的联合实验室，他们掌握了很多的数据。

　　这是约翰霍普金斯大学Greg Hager教授所讲的，对无人驾驶汽车来讲，需要有处理器和传感器，还有数据本身。医疗也是这样的，一方面对应传感器我们现在有各种医学影像和化验结果，处理能力不需要说了。再有就是有大量的不完整宏观和细节的数据，特别强调了不完整性。比如说我们刚才还讲了，戴了一个可穿戴设备跟踪一段时间的身体运动情况，包括生活的习惯。回头这两天忘记充电，过两天数据断了，断断续续的，但是量很大，这些数据怎么可以拼起来，可以还原一个真实的情况，这是一个挑战。无人驾驶汽车怎么做的呢，大数据医疗也是这样的。你做无人驾驶汽车是一个工程，大数据医疗也是工程。能够有一套新的健康和疾病管理的系统，能够使得这些数据可以共享，可以不断的提供出来以及不断的被使用以后可以迭代的更新。我做出来以后要有一个评估系统，汽车比较简单，这条路走歪了好评估，将来你的大数据出来需要有评估，到底你机器学习出来的到底对还是不对，好还是不好，这需要有评估系统。数据驱动的治疗过程，现在的治疗过程20年前我们定的。数据驱动的治疗过程是什么意思，现在我们如果为了诊断这一种病，可能我们需要20种数据，就要有一个方法使得以最快的时间能够获得这20个数据，而不是你到了一个地方说根据我现有的流程，你要在那按照原来现有的流程瞎转悠，这样才能降低复杂性。大数据有隐私保护的问题。美国有一些大的医疗保险系统，但是没有太多大的医院，301这样的大医院很少的，唯一有比较大的医院系统就是Kaiser Permanente，建立自己的私有云。有一些独立的大医院，比如Johns Hopkins，它们和工程院一起做一些事情。这是达芬奇的自动做手术的机器人，中间蓝色领带的是他的发明人，70年开始做这件事情原来是IBM科学家。最核心的很多技术当时还没有虚拟现实的概念，是通过多个角度的二维成像恢复三维成像。

　　我们从个体上升到一个全局对总体的了解，可以精细到每一个细节。一个创始人找我希望给他投资，这是创办第三家公司，把第二家公司卖掉创办这家公司的时候，他去走访了一百多家在美国的酒吧。他发现这么一个有趣的现象，他说酒吧的酒1/4偷喝掉。比如酒保说赵教授老板不在，我给你倒一杯，或者说我是老板，我回家了他们就开着喝，这是现在美国酒吧的状况。每一个老板都知道这样的情况，所以做成本的时候把1/4做进去，这个人做了什么事情?把酒吧装酒的架子改装了，装了传感器，几点几分拿起来一次倒了多少都知道，赵教授回家接孩子了，但是可以在家利用移动互联网看着几点几分哪儿酒倒了多少，精细到每一笔细节，这是整个大数据的思维方式。过去我老说这样把数据搜集的事是不需要想的，但是在今天这是一个可能。其实大数据不是很神秘的东西，这是一种新的思维方式，它使得计算机变的更加聪明，但是最终的话是制造这个智能程序的人在真正的控制这些计算机，谢谢大家。

　　李光伟：今天见到吴总很激动，我一直认为人工智能在某一天应该是可以超过人的智能，但是我有一点想不明白，包括图灵测试现在都是在测一个机器模仿人像不像。一个人又怎么可能创造出来一个程序比他的思维更加先进，这个想不明白。以后机器模仿人很像了，那么机器能不能对自己进行编程，编出来一个更加优化的，更好的算法，哪怕只有一小步也可以。

　　Google还能不能回到中国?如果Google回到中国的话有一个问题，Google这么大的公司来中国，包括你的地图和你的搜索，各方面的业务你会搜集很多的信息，美国公司会不会对中国造成威胁。

　　吴军：换一个角度回答问题，如果计算机足够聪明了以后人怎么办，我讲了机器智能怎么产生的，就是算法和数据，在这种结构下不需要担心智能。按照图灵测试是一个结果导向，不是过程导向，按照结果来讲可以超过你可以比人做的更好，这是没有问题的。但是有一个前提大家可能不知道注意了没有。这件事情是多多少少能够重复一次的，而不是第一次的。比如我们说看医学影像的片子，之所以可以看是因为有人看了第一次，把这个结果给记下来了，然后很多人看都学到了。因为它学的比我们人快，所以说它很快可能学了二百万个案例，我们人自己看可能两三年的时间积累了两百个案例，这是一个很重要的原因，就是可以重复的。现在不是说不能自己写程序，而是它写什么样的程序就是你控制的。简单程序可以写，比如说希望设计一个APP，背景是红色的，里面有什么样的东西描述清楚这个计算机的程序可以写。但是即使能写，也在于说写的框架让他来变，所以暂时不需要担心计算机完全能够全面的取代人。但是我想说真正有做创造性工作的人，这部分是最有价值的，而不是说天天重复的工作。

　　关于Google能不能回中国，你看到前面有一阵子消息说重回中国，据我的了解这其实是在Google手机的APP。关键在于Google分两边，Google中国和Google总部的人态度不一样，这是很复杂的问题。涉及到了国家安全的事情，我相信政府的考虑会非常周全，我不认为这会是一个很大的问题。

　　问：互联网医疗或大数据医疗有可能像颠覆传统零售或餐饮业一样颠覆医疗行业，互联网医疗风口会很快到来吗?

　　您认为互联网医疗以医生为中心，从医院为切入点向外扩展还是应该以病人为中心互联网为入口向医院倾斜?

　　吴军：互联网医疗现在炒作的泡沫很多，因为中国现在是总体医疗资源非常欠缺的国家，我刚才讲了美国当一个医生是非常困难的，培养的时间很长等等，但是人均的医生数量比中国多很多。当你很多的资源闲置，你的资源很忙的时候，利用互联网的分配很有效的，电商是最典型的例子。但是当你一方面的资源是完全供不应求的时候，你其实分配给张三分配不了李四，只是换一种分配方式而已没有太大的意义。我有不少的同学当医生差不多这个年纪，我其实蛮辛苦的，每天看不知道多少病人加号。本来一天可以看50个病人，不可能通过互联网医疗一天看80个，现在问题就是这个。另一方面，中国除了三甲医院的质量比较好，其它的医院医生需要培训，可能还不如计算机平均50%的水平。这不是互联网医疗本身可以解决的问题，大数据帮助医疗这是两回事，这方面我不认为有太大的意义。因为互联网是需要把资源调配起来的，你没有资源的时候没有什么可以调配的。

　　问：大数据时代很多的公司可以利用数据来分析每一个用户的行为，涉及到了用户隐私的问题。我可能今天在京东买零食，再去的时候京东推送一些相关的零食。社交网络用户在上面发一些个人的生活照或者他去哪一个地方，用户从这些行为中获益，社交网络公司分析用户行为的时候，可能会觉得有正当的理由获取用户的信息。大数据和用户隐私怎样平衡，有什么需要作为的地方吗?

　　吴军：我们假设两头，那边的头是绝对的你不用，完全保护隐私，但是你使用很多的东西可能不方便。比如说前一次搜索了哪一个商品，这次完全找不到了从头来。这头是所有的隐私都让京东和淘宝公司知道或者说社交网络知道，但是我可能非常方便。现在的现实状况是什么?用户其实假设可以让它有一个选择，就是资金拉一个标准确定在这还是那，大部分的用户确定在这个位置，这是非常接近的，完全放弃隐私而获得一个方便。将来会有问题的，但是一边说有隐私的忧患，但是一方面把华表选在了我手的位置。

　　问：吴老师您好，我知道您是语音识别方面的专家，我对这方面特别感兴趣，所以想请问您如何能够提高语音识别的准确度，以及这项技术最核心的难点是什么。

　　刚才提到大数据的重要性，如果我想做一个课题是关于用于对比两个声音文件的相似度，在您看来样本量数据库需要达到多少是比较合适的。

　　吴军：现在语音识别其实已经做的很好，尤其是英语，包括大语种的语音识别已经做的很好。如果单个音节没有上下文，现在计算机听的比人准，就是人单个音节不给你上下文，de和te，准确率只有60%。人之所以一句话听的很准，因为上下文把握的很好，上下文的意思连接的很好，这是计算机还做的不如人的。我们人自己觉得自己说话是一致的，或者说你的朋友听你说话是一致的，其实当你紧张一点，或者说是高兴一点的时候，这个声音是一个变化的。这个变化我们的人会适应的比较快到目前为止，一看今天紧张，你不自觉地就把它的说话声音适应了，这点是计算机适应的比较慢的地方。除了这些原因以外，现在的计算机做的比较好。很大的程度上取决于数据，在过去的15年里语音识别的错误率下降了10%。包括很多的口语化的东西错误率下降到了10%不到，90%的功劳是在数据上。

　　第二件事看你有多高的精度要求，这是需要自己慢慢的探索，这没有办法马上给你一个确定的答案。

　　主持人：今天听了大数据前沿的话题，又是专家改，我在这儿边听边理解。今天有两大块，大数据、云计算。大数据和云计算是一个问题的两个方面，大数据是反映问题的，而云计算是通过分析问题、预测问题，从而给出决策的依据。当我们这么理解对的话，我们就要先考虑大数据的特征，这几大特征我归纳出来必然会带来几大转变。什么转变?这就是一种潮流，我们要意识到未来有这样的潮流，要全体不要抽样，我们现在说抽样调查包括寻证医学，大样本和精标准，按照寻证医学的思路，完备性对医疗有质的飞跃，因为量已经达到了质变的门槛。所以精准医疗美国提升为国家战略和大数据背后有关联的，因为有大数据的依据发现了癌症是个体化的没有万能的治癌药，基因测序相关组合中系统性的理解，精准医疗必然是趋势，这也是大数据的支撑。

　　要效率而不要精准，现在因为数据要超大，数据量究竟多大是大，多大就够，这点上将来肯定会有效率的问题，有目标问题，包括工程设计问题。你的效率优先，精准就是肯定要放在其次。

　　相关不要因果。我们现在考虑问题经典的思路就是因果关联，逻辑关系，刚才吴老师讲的关联性很重要，非逻辑性的东西大数据思维关联在一起，这样的话我们可以看到相关性的，本来没有关的相关性纳入到我们考虑的视野和分析，这里我们说未来是不是因果律会降低。作为因果律降低的话，在哲学上有一个重大的关键质问，人是什么，人之所以为人就是因果关系。如果你把这个问题推翻的话，我们未来的世界谁主导的，所以在物理学当中有一个经典的名言，世界是由数据决定的。在英国牛津有一个大数据专家维科托麦尔，人文社会科学领域我们哲学界来说我们有保留的。

　　大数据的趋势无法逆转，在无法逆转的情况下，如何利用大数据为我们所用。如何看待大数据带来的利弊两方面，这是特别重要的事情。我昨天刚看了一个故事，日本的工业技术研究所，这个人的名字是(叶树重臣)，防止小汽车被盗利用大数据做的防盗装置，数据、传感器，最后研究出一种装置。一个车一个司机，如果一个盗贼偷车要坐进去，他的坐姿和本来司机的坐姿是不一样的，重量和受力点也是不一样的，这个时候装置马上输入密码，肯定密码输不对，这个系统马上熄火这个车开不起来，利用这样的方式，就是大数据在未来生活中很细为我们使用。我们将来可能利用大数据解决我们的生活现实问题。

　　将来我们人想方便舒服，在方便和舒服的时候我们的隐私被人家全部拿走，我们的人已经无处可逃。我的理解，这个悖论无法解决。人的问题，未来的困惑会随着技术的发展只能越来越麻烦，而不会越来越好，我可能有点悲观。技术的发展带来利弊同时增长，不可能一方面光是好没有坏，好坏同步增长，如果看的话我们的心态会很理性。包括对未来医疗很多的方面，怎么开发和利用这是工程设计问题，今天请吴老师讲打开了一扇窗，因为专家领进门，修行在个人。

　　IT应该是TI时代，我们在IT时代，我们进入数据化的时代，重新思考世界秩序，怎么开发利用，怎么可以摆正心态。

　　感谢吴军老师精彩授课。

更多相关： 大数据营销关于大数据、机器智能与现代医疗网络营销

免责声明：本文来源于异步社区,本文仅代表作者个人观点，与网赢中国无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

有意与本网合作者请与《网赢中国》联系。未经《网赢中国》书面授权，请勿转载或建立镜像，否则即为侵权。

大数据营销

更多大数据营销资讯