书城计算机一本书读懂大数据
9476000000016

第16章 颠覆与重塑思维,大数据与思维革命(3)

在海尔公司内部搭建了市场链研发和营销协同机制,除此以外,参与其中的还有研发部、企划部、市场部和售后部,新产品的市场监测体系建立在多维度的数据之上,一个对市场快速反应的开放系统由此形成,企业为此有了优化产品、推陈出新的重要保障。

长期占据亚洲市场四成份额的UC浏览器,之所以能保持这样的优势,正是因为其先进的研发理念,UC坚持在市场之上为客户创造价值,推出了智能适应屏幕大小、夜间模式和语音等多个适应客户需求的功能,而这一切决策都来自对客户行为数据和反馈的不懈跟踪。UC的CEO俞永福就曾经说过:“全球化的进程中,移动互联网企业要做的是全球化思考和本地化执行。在开拓重点区域的市场时,除了要在产品的语言翻译和横向移植上下功夫,还要充分了解当地的文化。”俞永福的意思实际上就是要充分掌握和分析当地客户行为的特征数据。

在电子商务化已经深入企业的买卖关系之后,企业价值链受到大数据的影响就更加显现出来了。阿里巴巴集团的总参谋长曾鸣说过:“互联网如果开始继续推动价值链的所有环节,网络和不同的player之间能通过信息实现协同分享的时候,电子商务的威力就会真正发挥出来,而这当中全链条的价值就会得到再造,同时也是个价值创新的过程。”

生活、工作、思维的颠覆重构

大数据带来了时代的重大转型,这就好比是人们可以通过望远镜感受宇宙,通过显微镜观测生物一般的重大发现。人们的生活和理解世界的方式都正在被大数据所改变,一切的新发明和新服务都来自大数据,还有其他更多的改变也在酝酿中。

2009年一种新型的流感病毒出现,那就是结合了禽流感和猪流感特点的甲型H1N1流感,就在几周的时间里这种病毒就快速传播开来。由此全世界的公共卫生机构都在担忧可能会有一场致命流行病蔓延开来。不少评论家开始发出警告称有大规模的流感会暴发,他们担心1918年在西班牙暴发的那场夺走了上千万人性命,且影响了5亿人口的大规模流感的悲剧会再次重演。更为可怕的是,当时没有一个国家已经研发出对抗此类流感的疫苗。公共卫生专家唯一能做到的就是减缓病毒传播的速度,就算是要做到这一点还需要了解的是这病毒究竟在哪里出现。

和其他的国家一样,美国也要求自己的医生一旦发现新型流感病例要尽快报告疾控中心。可是真正患病的人总是在患病多日后才会到医院去,因此真正传到疾控中心的信息总需要一定的时间,正是因为这个流感病例的通报总存在一到两周的延后,疾控中心也只能一周汇总一次数据。可是信息滞后两周对于一种飞速传播的流感来说实在是太可怕了。公共卫生机构因为信息滞后而在暴发流感疫情时总是感觉无所适从。

甲型H1N1流感暴发之前的几周,曾经在《自然》杂志上有一篇互联网巨头谷歌公司工程师发表的论文,很是令人注目。公共卫生官员们和计算机科学家们为之震惊不已。文章中,将谷歌是如何能预测到这个冬季流感会传播的原因解释得非常清楚,他们认为传播不仅仅是在全美范围内,还会蔓延到特定的地区和州。通过观察人们在网络上的搜索记录,谷歌完成了这样的预测,这用的是一种以前被忽略过的方法。多年来积累的搜索记录都被谷歌给保存了下来,几乎每一天都会收到全世界30亿条以上的搜索指令,这么庞大的数据资源足以让谷歌可以选择用这种方法来推断结果。

谷歌公司拿着美国疾控中心2003-2008年间季节性流感传播的数据和美国人频繁检索的5000万条词条做一个对比,通过人们的搜索记录,谷歌希望以此来判断人们是否患上了流感。除谷歌以外,其他公司也想用其他方式来考证这样的结果,只不过他们不具备谷歌公司那样的庞大数据以及处理、统计数据的技术。

谷歌公司的员工虽然提出了推测,认为在网络上特定的检索词不过是为了得到关于流感的消息,像是“治疗咳嗽和发热的药物有哪一些”,可是这并不是找出这些词的重点,甚至连他们自己也不知道最重要的是哪些词条。关键是他们所构建的系统和这些词义中间并没有依赖关系。这个系统所关注的只有一个,那便是特定检索词条的使用频率和流感时间传播和空间传播的联系。谷歌一共处理了4.5亿个不同的数学模型只为测试这些词条。得出预测的结论之后,再和2007、2008两年美国疾控中心所记录的实际流感病例数据一比对,就发现居然存在着45条检索词条的组合,而在一个特定的数学模型上,他们软件所推测出来的结果和官方数据有着97%的相关。他们居然也能很准确地判断出流感是从哪里开始传播的,这和疾控中心的判断非常一致,而且还很及时,不至于有延误的情况出现。

2009年甲型H1N1流感暴发的时候,谷歌显然要比习惯性滞后的官方数据要更为有效,更为及时。公共卫生机构的官员因此得到了最有价值的数据信息。谷歌公司做到这一点居然不是通过分发口腔试纸或是联系医生,而是建立在与医学毫无关联的大数据的推测上。大数据可以称作是现代社会所具备的一种新型能力,用一种前所未有的方式分析海量数据,从而产生巨大的价值或是深刻的见解。可以想见下一次流感来袭时,这样的技术理念和数据储备会让全球人们拥有更好的预测工具,防止流感的大面积蔓延。

不但是公共卫生领域正在被大数据改变,几乎整个商业领域都在因为大数据而重新整合,譬如航空领域。

2003年,正准备从西雅图飞往洛杉矶去参加弟弟婚礼的奥伦·埃齐奥尼(Oren Etzioni)开始在网上订购机票,他知道越早买价格越便宜,因此几个月前他就在网上订购了一张机票。上了飞机,奥伦·埃齐奥尼非常好奇地向其他乘客询问购买的价格,当他听到一个比他晚买很多天却价格便宜不少的乘客的话时,感到非常气愤气氛,结果越问就越是发现,很多人的票买得比他便宜。

大多数人或许碰到这样的事情很可能在他走下飞机的那一刻就会忘掉。可是作为美国最知名计算机专家之一的奥伦·埃齐奥尼,从他第一天开始担任华盛顿大学人工智能项目负责人开始,他就创立了很多典型的大数据公司,即便大数据这个概念在那时候还没有兴起。

1994年,在埃齐奥尼的协助下,最早的网络搜索引擎Meta Crawler诞生,后来为Info Space公司所收购。埃齐奥尼还联合创立了第一个比价网站Netbot,随后又被Excite公司所收购。还有路透社收购了他创建的能够在文本中挖掘信息的Clearforest公司。在埃齐奥尼看来整个世界其实就是一系列的大数据,而自己可以来解决当中所有的问题。埃齐奥尼1986年毕业于哈佛大学,作为第一届计算机科学专业的毕业生,他所有的精力都花在了如何解决这些问题上。

当飞机着陆,埃齐奥尼决定要开始开发一个新的系统,作为预测网络机票价格的系统。同一航班上的同一座位本来应该有相同的价格,但事实上人们购买它的价格却千差万别,而这当中的理由只有航空公司心里清楚。

埃齐奥尼认为,机票价格的奥秘无需他来解开,他所要做到的就是帮助人们预测未来一段时间机票价格会跌还是会涨,这个想法是可操作的,只不过操作起来还存在一定的困难。很显然,这个系统为人们所展示的是与购买时间无关的特定航线机票的销售价格变化。

一张机票的价格若是呈现下降趋势的话,系统就会提醒顾客可以延缓购票的时间,反过来如果是上升的趋势的话,系统就会提醒用户当下就要买下机票。总而言之,埃齐奥尼开发了一套针对9000米高空的加强版信息预测系统,事实上这是个庞大的计算机科学项目,而它却是十分可行的。于是埃齐奥尼着手启动了这个项目。

埃齐奥尼所创立的预测系统,虚拟的乘客可以通过它节省不少经费。41天内12000个价格样本是这个预测系统的数据基础,而这些数据均来自一个旅游网站。预测系统能做到的是预测会发生什么,至于原因它是无法说明的。换句话说,它所推测的是推动机票价格波动的因素。机票降价的因素很可能是因为季节原因或是卖不出去等等,还可能是由于“周六晚上不出门”等原因,这些和预测系统都没有关系,它不过是通过数据的分析和统计来预计未来的趋势。埃齐奥尼总在思考是买还是不买这个问题,为此他还给自己的这个研究项目取了一个非常贴切的名字——哈姆雷特。

这个小小的项目逐渐壮大,成立了一家科技创业公司,还得到了风险投资基金的支持,取名为Farecast。该公司利用对机票价格走势和降价幅度的预测,指导消费者不错过最佳的购买时机,而这些都是消费者此前在其他网站获得不了的信息。

从保障自身透明度的角度来考虑,机票价格走势的预测可信度在这个网站上都可以查到,消费者可以以此进行参考。而海量的数据正是支撑这个系统运转的基础。为了能让预测更为精准,埃齐奥尼发现了一个行业机票预订数据库。基于美国商业航空产业数据而推测出的结果,几乎每一条航线上的每一个航班的每一个座位一整年的综合票价记录就是推测的依据。到现在,Farecast所拥有的飞行数据记录已经超过了2000亿条,用这种方式,消费者利用Farecast省下了不少开支。

埃齐奥尼有着棕色的头发,笑起来常常露出牙齿,无邪的面容,怎么看都不像是那种有魄力让所有航空公司一年损失数百万潜在收入的人。可是他确实是个目光非常长远的人。埃齐奥尼2008年开始在其他领域应用这项技术,像是预订酒店、二手车买卖等等。尽管所有领域中的差异不大,但是还是有大幅度的价格差存在,并据此有很多可运用的数据都是这项技术的基础。埃齐奥尼在实现自己计划前,微软公司就与之协商以1.1亿美元收购了他的公司。此后,Farecast并入了微软的搜索引擎中。

Farecast不过是所有大数据公司的一个小小的代表而已,它呈现出的是当下世界发展的趋势。时间往前推五年到十年,埃齐奥尼绝对想不到这个。他自己也说过这仿佛是不可能的,只因为那时的计算机处理和存储价格太贵了。这一切发生仰仗技术上的突破,但这并非唯一的原因,因为还有很多细微的重要改变在发生,尤其是人们有了数据使用的理念。

现在不再有人认定数据是静止的,不过从前收集了数据之后人们就会认定该数据没有价值了,就比方说航班落地之后,票价数据也就用处不大了(对于谷歌来说,检索命令完成以后数据就没有用了)。

因为数据而带来的便利随处可见,现代人人手一部手机,办公桌上均有一台电脑,而在办公室和办公室之间还有大型的局域网相连。不过,似乎人们还不是太重视信息数据本身的用处。计算机技术在过去的半个世纪已经融入了社会生活的每个角落,信息大爆炸的时代到来还引发了重大的变革。世界因此有了比以往更多的信息,增长速度也随之加快。信息总量的变革引起了信息形态的变化,换言之就是量变带来了质变。其中首当其冲的如天文学和基因学,经历了信息爆炸,并因此提出了大数据这个概念。现在所有的领域几乎都有了这个概念的应用。

大数据这个概念并不确切。起初大信息量的处理就是大数据,它一般指的是超过一般电脑处理数据的常用内存量,所以工程师为大数据而改进了数据处理的工具,新的技术处理方式也因此诞生,譬如有谷歌的MapReduce和开源Hadoop平台(最初源于雅虎)。人们有了这些技术,能够处理的数据量飞速增加。更为重要的是,数据的排列也不再需要依据传统的数据库表格,很多消除僵化层次结构和一致性的技术也在这个时候应运而生。与此同时,互联网公司还因此收集了大量充满价值的数据,并且在这些数据利用上发现了强烈的利益驱动力,而互联网公司也成了信息数据处理技术的领头羊,这一切很顺理成章。它们的发展让它们成了新技术的领衔者,甚至超过了有几十年经验的线下公司的发展。

现在最可能的一种方式就是人们认定以大数据为基础能做到很多事情,而这一切在以往的小数据时代是几乎完成不了的。人们通过大数据来获知新知识,且创造新的价值,同时大数据也改变了市场和组织机构,包括政府和公民的关系。