硅谷大数据篇编辑本段回目录
硅谷的这一个月,我在startups demo days和各种大公司一日游中度日,以为会逃脱国内各种会上各种“大数据”和挖掘机的梗,但万万没想到这里更甚。Hi~ 本文发自仅次于五道口的宇宙中心硅谷,与你分享大数据在这片土地上的真实生长状况。
什么是“改变世界”的大数据公司
近两周硅谷两场规模比较大的demo大会上,就有十多家自称做大数据的startups,有做消费者行为的,有做体育分析的,有做NGO融资的,有做环保的,有做UX的,有做信贷评级的,当然还少不了做移动端广告的。乍看都是高大上的产品,但仔细琢磨一下会发现一些没那么高大上的细节。
比如,有一家介绍时候说"Brings big data to teams, media and fans",用的是Moneyball作引子。展示结束后询问他们是如何分析视频以得到各种数据的,demo的哥们表示他们请了一些人看视频的。没错,是人工。自然地,下一个问题就是:未来如何扩张以应对来自不同体育项目大量的全长录像?他的回答也很简单,雇佣更多人。听完我懵了一下,问,那打算如何利用收集的数据呢?答曰:开放API,自己不做分析。
那么,说好的大数据呢?难道有数据就叫大数据公司了?如果庆丰包子留存有这半个多世纪以来的购买者和交易记录它就得叫大数据公司了?
是,但也不是。
先归纳了一下硅谷“大数据公司”的类型,有补充或修正的请拍砖:
- 数据的拥有者、数据源:特点是业务优势能收集到大量数据,就像煤老板垄断一个地区的矿一样。其实大多数有能力产生或收集数据的公司都属于这类型,比如Vantage Sports和收集了PB级数据的包子铺。
- 大数据咨询:特点是非常技术,提供从基础设施规划建设维护到软件开发和数据分析等的服务,但不拥有数据,比如Cloudera这家不到500人的startup是最著名的Hadoop架构咨询公司。
- 做大数据工具的:比如AMPLab出来的Databricks和Yahoo人主导的Hortonworks。
- 整合应用型:特点是收集拥有或购买一些数据,然后结合AI来解决更多实际的痛点。
所以回答之前的问题:是,因为包子铺只要收集的消费者数据量够大就能成为数据拥有者,有那么大的数据就有得到洞见的可能;不是,因为可能从真正意义上来说,大数据公司应该只属于第四种类型:AI。
对,我相信未来是AI的,而AI的食物是数据。就像很多产业链一样,最困难且最有价值的创新往往发生在接近最终用户的那端,比如iPhone。大数据行业最有价值的部分在于如何利用机器去处理数据得到洞见,影响组织和个人的行为,从而改变世界。收集和整理数据在未来会变得标准化和自动化,而利用AI进行分析的能力会变得更为关键。
再看硅谷主打AI的公司,现在大致可以分成以下三类了:1. 分析用户行为,改进产品和营销的,比如LinkedIn的推荐系统和用iBeacon实现店内营销;2. 统筹大量分散个体,利用大数据实现精确有效的预测和规划的,比如Uber和前段时间出现的Amazon Fresh及Grub Market;3. 分析识别各种类型的数据,开发更智能的设备和程序,比如Google大脑及无人车和以Nest为代表的智能设备等。
这些产品都有一个很明显的共性,就是在努力尝试把机器变得更智能以减轻人类的工作量。这个目的与科技发展的动力相符合,因此认为之前所说的第四种类型的公司是最有希望改变世界的。
这样的大数据公司需要什么样的人
那么大数据公司,或者说到真正可以改变世界的大数据公司需要什么样的人才呢?这里要介绍一个在硅谷被炒得很热的高频词汇:数据科学家。
这个职位出现的原因并不是因为数据量变大了需要更好的方式去存取,那是数据工程师的活。那产生的原因是什么呢?正是为了匹配上面第四种公司的需要。数据是AI当中不可分割的一部分,而且量越大越好,从数学上来说,数据越多则我们越能够有信心把从样本分析出来的结果推论到未知的数据当中,也就是说机器学习的效果越来越好,AI越来越智能。
由此诞生的数据科学家是一个非常综合型的职业。它所要求的知识范围包括分析数据的统计学,到算法的选择优化,再到对行业知识的深刻理解。这群人是开发数据产品的核心。硅谷大部分startup已经把它当成是必需品了,以至于刚入行的新人也能领到差不多$100K的薪水。而模糊的定义和误解也让有的人戏称,data scientist is a data analyst living in the bay area。
值得一提的是,数据本身的飞速发展从另一个侧面其实也给数据工程师们的大数据处理带来了许多挑战。主要来源于以下的两个方面:
- 数据量的急速增长。如今,数据的产生变得异常容易。社交网络,移动应用,几乎所有的互联网相关产品每时每刻都在产生众多数据。传统的集中储存计算方式显然无法处理如此庞大的数据量。这时,我们就需要新的储存方式,如云储存,以及新的处理方案,如Hadoop这样的分布计算平台。
- 数据本身的非结构化。在传统的数据处理领域,我们处理的主要是结构化数据,例如,Excel表格可以显示量化数据等。而如今我们面对着越来越多的非结构化数据,如社交网络的评论,用户上传的音频视频等。这些数据存在于包括文本、图片、视频、音频等众多的数据格式中,这些数据中隐含着众多有价值的信息,但这些信息却需要深度的计算才可以分析出来。这就需要我们利用智能化分析、图像识别等等一系列新的算法来进行数据挖掘,这也就是“大数据”的挑战所在。
目前硅谷的创业公司正在探索新的应用领域和方法,比如说物联网这块。现在智能设备们才刚刚起步,Nest、被Nest收购的Dropcam、Iotera、emberlight等等都属于少部分人的玩具。待到家家户户都安装了智能冰箱、智能灯泡、智能桌子、智能沙发等等的时候,大数据的威力才会伴随着巨大的使用规模而发挥出来。
另外一个角度就是人。如果把之前谈的设备全部置换成个人的时候,他们的相互关系在各种维度上的交错会产生一张巨大的网络,其中的每个组成部分都由大量的数据组成。分析理解预测这些社会关系将会是大数据另一个有趣的应用方向,即Social Physics。不过按照从硅谷到全国的速度,感觉不管哪一方面的普及起码得等上五年以上的时间。
展望一下未来的话,如果参照以前的技术革命和行业发展来看大数据,那么大数据的底层设施将会逐渐被隔离,被模块化和标准化,甚至是自动化,而在其上的中间层和应用层将成为各大公司的数据工程师们激烈攻克的主战场。
硅谷公司的大数据运行现状
目前硅谷各个公司的数据处理水平和模式差别还是蛮大的。除Facebook等几个很领先的公司外,大部分公司要么还没有能力自行处理数据,要么就是正在建立单独的数据处理部门,主要负责从数据基本处理到后期分析的各个环节,然后再送到公司内部的其他部门。
对于这些公司来说,建立一个单独的数据处理部门可能还有还路漫漫其修远兮。举个例子来说,Facebook有一个超过30人的团队花了近4年的时间才建立了Facebook的数据处理平台。如今,Facebook仍需要超过100名工程师来支持这个平台的日常运行。可想而知,光是大数据分析的基础设施就已经是一个耗时耗力的项目了。LinkedIn大数据部门的建设也已花了整整六年。
普遍来说,各公司自主建立数据处理平台存在着几个难点:
- 没有足够优秀的数据工程师来组建团队
- 没有足够能力整合数据
- 没有易于操作的基础软硬件来支持数据分析
这几个主要难点使得大数据分析越来越专业化、服务化,以至于我们渐渐看到一条“硅谷数据处理产业链”的出现。从数据的储存,数据分析平台建立,到数据分析,数据可视化等等各个环节的成本越来越高,这使得本身技术能力很强的公司都还是使用专业数据处理公司提供的服务,而将更多的人才和资源放到核心业务的开发上。
另外,就是各个公司对于数据处理的要求也越来越高。不仅仅需要有效的处理结果,也需要数据处理可以self-service、self-managing、保证数据安全性、完善实时分析。这些诸多需求也使得专业化团队的优势更加突出。而这样一条整合服务链的行程,也给众多的大数据公司提供了机会。
硅谷是非常神奇的地方。科技概念在这里也不能免俗会被追捧,被炒得很热。但这种激情和关注某个程度上讲正是硅谷创新的动力。即使存在很多投机贴标签的人,即使一片片的大数据startups被拍死在沙滩上,即使Gartner预测大数据概念将被回归现实,但相信会有更多的人投入到大数据这个行业,开发出更智能,更有影响力的产品。毕竟,大数据本身,不像一个单纯的pitch那样,它能够保证的是一定可以中看并且中用。
在硅谷观察之大数据篇的【下】中,我采访了Evernote AI部门负责人Zeesha Currimbhoy、LinkedIn大数据部门总监Simon Zhang,并会带来三家美国知名公司的大数据发展状况。通过这些,可以更具体地知道硅谷这些公司在怎么做一个好的挖掘机和如何“改变世界”。
我把硅谷地区大数据生长状况基本梳理了一个相对完整的形状出来。有朋友看了【下】的预告后在微博上给我留言说,听说下篇要介绍一些公司的大数据部门情况,问能不能点名加个Google尤其是Google Maps,因为特别想知道这个世界上最大的搜索引擎以及每天必不可少的出行神器是怎么当一个挖掘机的。
于是,上周我又去了Google采访。本篇将一共呈现硅谷四大不同类型的公司如何玩转大数据,其中包括了著名FLAG中的三家(Apple在大数据这块来说表现并不突出)。
本篇内容来自对Evernote AI负责人Zeesha Currimbhoy、LinkedIn大数据部门资深总监Simon Zhang、前Facebook基础架构工程师Ashish Thusoo和Google大数据部门一线工程师及Google Maps相关负责人的专访。Enjoy~~
Evernote:今年新建AI部门剑指深度学习
Evernote的全球大会上,CEO Phil Libin提到,Evernote的一个重要方向就是“让Evernote变成一个强大的大脑”。要实现这个目标,就不得不提他们刚刚整合改组的Augmented Intelligence团队(以下简称AI team)。我在斯坦福约到AI team的manager Zeesha Currimbhoy,在此分析一下从她那里得到的一手资料。
- 是什么
今年早些时候,这个2岁的数据处理团队改组为由Zeesha带领的Augmented Intelligence team,总共十人不到,很低调,平日几乎听不到声响。他们究竟在做什么?
与我们常说的AI(artificial Intelligence)不同,Evernote的团队名叫做Augmented Intelligence,通常情况下简称为IA。
Zeesha显然是这个团队里元老级的人物:“我是在2012年加入Evernote的,直接加入到了当时刚刚建立的数据处理团队,这也就是现在AI team的雏形。我们最开始的项目都是简单易行的小项目,比如按照你的个人打字方式来优化用户的输入体验。”
传统意义上的AI指的是通过大量数据和算法让机器学会分析并作出决定。而这里讲到IA则是让电脑进行一定量的运算,而终极目的是以之武装人脑,让人来更好的做决定。这两个概念在具体实施中自然有不少相通之处,但是其出发点却是完全不同的。
这个区别也是Evernote AI team的亮点所在。作为一个笔记记录工具,Evernote与Google之类的搜索引擎相比,最大的区别就是它非常的个人化。用户所储存的笔记、网站链接、照片、视频等都是他思维方式和关注点的体现。
- 从哪来
Zeesha小组的初衷便是,通过分析用户储存的笔记来学习其思维方式,然后以相同的模式从第三方数据库(也就是互联网上的各种开源信息)抽取信息推送给用户,从而达到帮助用户思考的过程。从这个意义上讲,Zeesha版的未来Evernote更像是一个大脑的超级外挂,为人脑提供各种强大的可理解的数据支持。
目前整个团队的切入点是很小而专注的。
“我们不仅仅是帮助用户做搜索,更重要的是在正确的时间给用户推送正确的信息。”
实现这个目标的第一步就是给用户自己的笔记分类,找到关联点。今年早些时候,Evernote已经在Mac的英文版上实行了一项叫做“Descriptive Search”的功能。用户可以直接描述想要搜索的条目,Evernote就会自动返回所有相关信息。
例如,用户可以直接搜索“2012后在布拉格的所有图片”,或者“所有素食菜单”。不管用户的笔记是怎样分类的,Decriptive Search都可以搜索到相关的信息并且避免返回过大范围的数据。而这还仅仅是AI team长期目标的开始,这个团队将在此基础上开发一系列智能化的产品。
- 到哪去
不用说,这样一个新创团队自然也面临这诸多方面的挑战。当下一个比较重要的技术难点就是Evernote用户的数据量。虽然Evernote的用户量已经达到了一亿,但是由于整个团队的关注点在个人化分析,外加隐私保护等诸多原因,AI team并没有做跨用户的数据分析。
这样做的结果就是团队需要分析一亿组各不相同的小数据组。比如,假设我只在Evernote上面存了10个笔记,那Evernote也应该能够通过这些少量的数据来分析出有效结果。当然,这些技术的直接结果是用户用Evernote越多,得到的个性化用户体验就越好。长期来讲,也是一个可以增加用户黏性的特点。
不过Zeesha也坦言:“的确,我们都知道没有大数据就没有所谓的智能分析。但是我们现在所做的正是在这样的前提下来找到新的合适的算法。”她并没有深入去讲目前团队所用的是什么思路,但是考虑到这个领域一时还没有很成功的先例,我们有理由期待在Zeesha带领下的Evernote AI team在近期做出一些有意思的成果。
Facebook:大数据主要用于外部广告精准投放和内部交流
Facebook有一个超过30人的团队花了近4年的时间才建立了Facebook的数据处理平台。如今,Facebook仍需要超过100名工程师来支持这个平台的日常运行。可想而知,光是大数据分析的基础设施就已经是一个耗时耗力的项目了。
Facebook的一大价值就在于其超过13.5亿活跃用户每天发布的数据。而其大数据部门经过七八年的摸索,才在2013年把部门的key foundation定位成广告的精准投放,开始建了一整套自己的数据处理系统和团队。并进行了一系列配套的收购活动,比如买下世界第二大广告平台Atlas。
据前Facebook Data Infrastructure Manager Ashish Thusoo介绍,Facebook的数据处理平台是一个self-service, self-managing的平台,管理着超过1 Exabyte的数据。公司内部的各个部门可以直接看到处理过的实时数据,并根据需求进一步分析。
目前公司超过30%的团队,包括工程师、Product Managers、Business Analysts等多个职位人群每个月都一定会使用这项服务。这个数据处理平台的建立让各个不同部门之间可以通过数据容易地交流,明显改变了公司的运行方式。
追溯历史,Facebook最早有大数据的雏形是在2005年,当时是小扎克亲自做的。方法很简单:用Memcache和MySQL进行数据存储和管理。
很快bug就显现了,用户量带来数据的急速增大,使用Memcache和MySQL对Facebook的快速开发生命周期(改变-修复-发布)带来了阻碍,系统同步不一致的情况经常发生。基于这个问题的解决方案是每秒100万读操作和几百万写操作的TAO(“The Associations and Objects”)分布式数据库,主要解决特定资源过量访问时服务器挂掉的bug。
小扎克在2013年第一季度战略时提到的最重点就是公司的大数据方向,还特别提出不对盈利做过多需求,而是要求基于大数据来做好以下三个功能:
- 发布新的广告产品。比如类似好友,管理特定好友和可以提升广告商精确投放的功能。
- 除与Datalogix, Epsilon,Acxiom和BlueKai合作外,以加强广告商定向投放广告的能力。
- 通过收购Atlas Advertising Suite,加强广告商判断数字媒体广告投资回报率(ROI)。
LinkedIn:大数据如何直接支持销售和变现赚钱
LinkedIn大数据部门的一个重要功用是分析挖掘网站上巨大的用户和雇主信息,并直接用来支持销售并变现。其最核心团队商业分析团队的总监Simon Zhang说,现在国内大家都在讨论云,讨论云计算,讨论大数据,讨论大数据平台,但很少有人讲:我如何用数据产生更多价值,通俗点讲,直接赚到钱。
但这个问题很重要,因为关系到直接收入。四年半前 LinkedIn内所有用户的简历里抽取出来大概有 300万公司信息,作为销售人员不可能给每个公司都打电话,所以问题来了:哪家公司应该打?打了后会是个有用的call?
销售们去问Simon,他说只有通过数据分析。而这个问题的答案在没有大数据部门之前这些决策都是拍脑袋想象的。
Simon和当时部门仅有的另外三个同事写出了一个模型后发现:真正买LinkedIn服务的人,在决定的那个环节上,其实是一线的产品经理,和用LinkedIn在上面猎聘的那些人。但他们做决策后是上面的老板签字,这是一个迷惑项。数据分析结果出来后,他们销售人员改变投放策略,把目标群体放在这些中层的管理人身上,销售转化率瞬间增加了三倍。
那时LinkedIn才 500 个人,Simon一个人支持 200名销售人员。他当时预测谷歌要花 10 个 Million美金在猎聘这一块上,销售人员说,Simon,这是不可能的事。
“但是数据就是这么显示的,只有可能多不会少。我意识到,一定要流程化这个步骤。”
今天LinkedIn 的“猎头”这块业务占据了总收入的60%。是怎么在四年里发展起来的,他透露当时建造这个模型有以下这么几个步骤:
- 分析每个公司它有多少员工。
- 分析这个公司它招了多少人。
- 分析人的位置功能职位级别一切参数,这些都是我们模型里面的各种功能。然后去分析,他们内部有多少HR 员工,有多少负责猎头的人,他们猎头的流失率,他们每天在Linkedin的活动时间是多少。
这是LinkedIn大数据部门最早做的事情。
Simon告诉36氪,公司内部从大数据分析这一个基本项上,可以不断迭代出新产品线LinkedIn的三大商业模型是人才解决方案、市场营销解决方案和付费订阅,也是我们传统的三大收入支柱。事实上我们还有一个,也就是第四个商业模型,叫“销售解决方案”,已经在今年7 月底上线。
这是卖给企业级用户的。回到刚才销售例子,LinkedIn大数据系统是一个牛逼的模型,只需要改动里面一下关键字,或者一个参数,就可以变成另一个产品。“我们希望能帮到企业级用户,让他们在最快的速度里知道谁会想买你的东西。”
虽然这第四个商业模式目前看来对收入的贡献还不多,只占1%,但anyway有着无限的想象空间,公司内部对这个产品期待很高。“我还不能告诉你它的增长率,但这方向代表的是趋势,Linkedin 的 B2B 是一个不用怀疑的大的趋势。”Simon说。
Google:一个闭环的大数据生态圈
作为世界上最大的搜索引擎,Google和大数据的关系又是怎样的呢?感谢微博上留言的朋友,这可确实是一个很有意思的议题。
Google在大数据方面的基础产品最早是2003年发布的第一个大规模商用分布式文件系统GFS(Google File System),主要由MapReduce和Big Table这两部分组成。前者是用于大数据并行计算的软件架构,后者则被认为是现代NOSQL数据库的鼻祖。
GFS为大数据的计算实现提供了可能,现在涌现出的各种文件系统和NOSQL数据库不可否认的都受到Google这些早期项目的影响。
随后2004和2006年分别发布的Map Reduce和BigTable,奠定了Google三大大数据产品基石。这三个产品的发布都是创始人谢尔盖-布林和拉里-佩奇主导的,这两人都是斯坦福大学的博士,科研的力量渗透到工业界,总是一件很美妙的事。
2011年,Google推出了基于Google基础架构为客户提供大数据的查询服务和存储服务的BigQuery,有点类似于Amazon的AWS,虽然目前从市场占有率上看与AWS还不在一个数量级,但价格体系更有优势。Google通过这个迎上了互联网公司拼服务的风潮,让多家第三方服务中集成了BigQuery可视化查询工具。抢占了大数据存储和分析的市场。
BigQuery和GAE(Google App Engine)等Google自有业务服务器构建了一个大数据生态圈,程序创建,数据收集,数据处理和数据分析等形成了闭环。
再来看Google的产品线,搜索,广告,地图,图像,音乐,视频这些,都是要靠大数据来支撑,根据不同种类数据建立模型进行优化来提升用户体验提升市场占有率的。
单独说一下Google maps,这个全球在移动地图市场拥有超过40%的市场占有率的产品,也是美国这边的出行神器。它几乎标示了全球有互联网覆盖的每个角落,对建筑物的3D视觉处理也早在去年就完成,这个数据处理的工作量可能是目前最大的了,但这也仅限于数据集中的层面。真正的数据分析和挖掘体现在:输入一个地点时,最近被最多用户采用的路径会被最先推荐给用户。
Google还把Google+,Panoramio和其他Google云平台的图片进行了标记和处理,将图片内容和地理位置信息地结合在一起,图像识别和社交系统评分处理后,Google能够把质量比较高的的图片推送给用户,优化了用户看地图时的视觉感受。
大数据为Google带来了丰厚的利润,比如在美国你一旦上网就能感觉到时无处不在的Google广告(AdSense)。当然,它是一把双刃剑,给站长们带来收入的同时,但如何平衡用户隐私的问题,是大数据处理需要克服的又一个技术难关,或许还需要互联网秩序的进一步完善去支持。
像在上中所说,除Facebook等几个很领先的公司外,大部分公司要么还没有自行处理数据的能力。最后附上两个例子,想说这边的大公司没有独立大数据部门也是正常的,采取外包合作是普遍现象:
Pinterest:
Pinterest曾尝试自行通过Amazon EMR建立数据处理平台,但是因为其稳定性无法控制和数据量增长过快的原因,最终决定改为使用Qubole提供的服务。在Qubole这个第三方平台上,Pinterest有能力处理其0.7亿用户每天所产生的海量数据,并且能够完成包括ETL、搜索、ad hoc query等不同种类的数据处理方式。尽管Pinterest也是一个技术性公司,也有足够优秀的工程师来建立数据处理团队,他们依然选择了Qubole这样的专业团队来完成数据处理服务。
Nike:
不仅仅硅谷的互联网公司,众多传统企业也逐渐开始使用大数据相关技术。一个典型的例子就是Nike。Nike从2012年起与API服务公司Apigee合作,一方面,他们通过Apigee的API完善公司内部的数据管理系统,让各个部门的数据进行整合,使得公司内部运行更加顺畅、有效率。另一方面,他们也通过API开发Nike Fuel Band相关的移动产品。更是在2014年开启了Nike+ FuelLab项目,开放了相关API,使得众多的开放者可以利用Nike所收集的大量数据开发数据分析产品,成功地连接了Nike传统的零售业务,新的科技开发,和大数据价值。
[36氪原创文章,作者: 曾小苏Clara]