Saplo:像人脑一样阅读编辑本段回目录
信息过剩时代,如何从海量信息中提炼出自己所需的内容?瑞典的文本分析服务提供商 Saplo 给出了解决方案。“我们的创新之处在于提供各种文本分析服务,通过模拟人脑的阅读和评价过程对海量文本进行自动过滤,并提取出高价值信息。”Saplo 公司创始人马蒂亚斯·泰尔伯格告诉《外滩画报》。目前 Saplo 的主要客户是瑞典本国的新闻网站。
在“媒介大爆炸”导致的信息过剩时代,从海量信息中提炼出自己所需的有价值内容,已变得愈发奢侈。
美国人大卫·申克曾在《信息烟尘:如何在信息爆炸中求生存》中提出“信噪比”这一概念:你日常接触的信息中多少是有用的,多少是无用的?你的信噪比是多少?
稀缺的、曾经被当作鱼子酱一样来珍惜的信息,如今却跟土豆一样充足,并被视为理所当然。当信息积累得越来越多,它就不仅仅是膨胀了,它已成为一种污染。
如何避开这些“污染”?瑞典的一家文本分析服务提供商 Saplo 给出了解决方案。“我们的创新之处在于提供各种文本分析服务,通过模拟人脑的阅读和评价过程对海量文本进行自动过滤,并提取出高价值信息。”Saplo 公司创始人兼首席执行官马蒂亚斯·泰尔伯格(Mattias Tyrberg)告诉《外滩画报》。
11 月 5 日下午,同济大学创意设计学院一楼展厅,来沪参加“创新瑞典”全球巡回展览的马蒂亚斯站在 Saplo 公司的展台前,一边大口喝着水,一边接受《外滩画报》的专访:“真不好意思,这几天唱卡拉OK唱多了,把嗓子唱哑了。”
展台不到一平方米,竖着两块高约两米、呈九十度打开的展板,中间夹着一台 20 英寸左右的显示器,循环播放着 105 秒的无声视频。显示器下面是一个透明玻璃盒,里面散落着 50 余张小纸片,每张纸片上随机印着一个英文单词,这些纸片代表着过剩的信息。展板上有几行中英文说明,除此以外别无他物。用不了三分钟时间,你就可以把这个公司的文本分析服务了解个大概。Saplo 通过极简的展台设计传递出明确的信号:信息的获取理应如此高效。
比 Google 更高效
四年前的一天,马蒂亚斯带着另一个合伙创始人在斯德哥尔摩的一个酒店参加某投资者大会。他开着 PPT 正讲在兴头上,听众突然纷纷往会场外跑。
“我们讲得那么难听吗?”马蒂亚斯后来才知道,那些观众都赶着去银行取款。那天是 2008 年 9 月 15 日,雷曼兄弟申请破产保护的日子。也在这一天,Saplo 正式成立。
作为利用语义(Semantic)技术进行文本分析的初创公司,Saplo 可以从文章、论坛、博客、维基中提取数据,并根据特定话题评估观点,发现相关文章,或产生相关标签。
举个例子,如果你打算在 Google 搜索引擎上寻找网友对纽约这座城市的评价,结果八成会让你失望。如何选择合适准确的搜索关键词尚且不论,想到即将出现的数千万条结果,相信你已不知所措。
Saplo 使用的语义技术则可以通过“New York(纽约)”,“evaluation(评价)”,“positive(正面)”,“negative(负面)”等人脑在第一时间联想到的词语(标签),模拟用户正常的思维过程,从海量网页中提取出最符合要求的少量信息。
但倘若你将上述四个关键词键入 Google 搜索框,结果只有一个——被 3.12 亿条无关信息所淹没。
语义技术最常见的应用便是从网页、博客、微博、文档等媒介中分析文本。
刚刚结束的美国大选被马蒂亚斯做成了 Saplo 的一个经典展示案例。利用语义技术,马蒂亚斯分析了从 10 月 15 日至 10 月 28 日这选定的两周中互联网上关于美国大选的 320 万篇文章。文本分析结果显示,支持奥巴马或对奥巴马具有正面评价的文章占 39%,罗姆尼为 32%。
这只是第一层级的统计结果。在第二层级中,用户还能看到传统媒体与社交媒体的态度差异:相对而言,传统媒体更中立,而社交媒体更显情感化。
分析结果的第三层级则揭示了两位候选人的优势所在。“在社交媒体上,罗姆尼在就业方面得到的分数要比奥巴马多;在传统媒体上,奥巴马在外交政策方面得到比罗姆尼更多的肯定。”马蒂亚斯表示。
语义技术还将可以通过给单词分类以及从文本中提取话题的方式来给文章添加标签,这样可以发现大量文本中内容相似的文章,然后用于上下文识别和情感分析。通过该技术,你在找到奥巴马推特账号的同时,还能够轻易找到其幕僚和罗姆尼幕僚的账号。
语义分析技术的优势
谁能使用文本分析服务?答案是任何人。当然,与我们常见的搜索引擎不同,这项服务将会向用户收取费用。
目前 Saplo 的主要客户是瑞典本国的新闻网站。这些网站使用 Saplo 提供的文本自动标注服务,高效提取文本中的特定信息。如分析哪些受众在参与线上讨论,评估这些讨论传达的情感和情绪。
自 2011 年始,类似的数据整合与文本分析服务已成为信息技术领域的重要关注点。无论你的兴趣是商业智能、信息访问还是运营,这些都与客户资料、交易、产品与竞争信息、网络博客等企业数据有着千丝万缕的联系,你需要从潮水般的在线信息中找出与业务相关的内容。
Saplo 并非没有竞争对手。与其业务范畴最为接近的一家公司是 Extractiv,后者提供了 SaaS(Software-as-a-service,软件即服务)文本分析,可以识别如个体名称、公司、地点等“实体”,以及源文本中实体的情绪与关系。
一些公司还提供超网络文本( 如图片)分析服务,这其中比较典型的是 AlchemyAPI、Clarabridge、Evri、Lexalytics、OpenAmplify 和汤森路透旗下的 OpenCalais 和 Zemanta。
与大部分对手使用的语言分析技术不同,Saplo 的核心竞争力便是其应用的语义分析技术。这项技术并不能为客户提供独家服务内容,却能够为 Saplo 节省大量的人力与研发成本。
公司成立四年后,包括马蒂亚斯在内,Saplo 一共只有六名员工,而对手动辄是上百人的大型团队。
目前,大部分文本分析公司只提供英语文本分析服务。随着市场的开拓和客户需求的增长,多语种文本分析服务的出现只是时间问题。但对于那些使用语言技术的公司来说,增加支持语种却是一项大工程。“他们基于语言技术专门为英语建立了一个分析模型,但换一个语种这个模型就行不通了。” 马蒂亚斯解释,“例如,他们若想支持法语或汉语服务,可能需要50个人工作很长一段时间来开发新模型。”
目前 Saplo 公司的文本分析服务仅支持英语和瑞典语,但马蒂亚斯告诉记者,中文版的推出已提上日程:“转换语言对我们来说很容易,不需要重新设计程序。”