科技: 人物 企业 技术 IT业 TMT
科普: 自然 科学 科幻 宇宙 科学家
通信: 历史 技术 手机 词典 3G馆
索引: 分类 推荐 专题 热点 排行榜
互联网: 广告 营销 政务 游戏 google
新媒体: 社交 博客 学者 人物 传播学
新思想: 网站 新书 新知 新词 思想家
图书馆: 文化 商业 管理 经济 期刊
网络文化: 社会 红人 黑客 治理 亚文化
创业百科: VC 词典 指南 案例 创业史
前沿科技: 清洁 绿色 纳米 生物 环保
知识产权: 盗版 共享 学人 法规 著作
用户名: 密码: 注册 忘记密码?
    创建新词条
科技百科
  • 人气指数: 2568 次
  • 编辑次数: 1 次 历史版本
  • 更新时间: 2011-11-04
土土
土土
发短消息
相关词条
2017苹果十大期待
2017苹果十大期待
苹果生态系统
苹果生态系统
苹果三大园区
苹果三大园区
苹果市值突破7000亿美元
苹果市值突破7000亿美元
苹果手表
苹果手表
苹果移动支付
苹果移动支付
苹果公关部门大起底
苹果公关部门大起底
揭秘苹果大学
揭秘苹果大学
2014年苹果全球开发者大会
2014年苹果全球开发者大会
苹果设计团队震荡
苹果设计团队震荡
推荐词条
希拉里二度竞选
希拉里二度竞选
《互联网百科系列》
《互联网百科系列》
《黑客百科》
《黑客百科》
《网络舆情百科》
《网络舆情百科》
《网络治理百科》
《网络治理百科》
《硅谷百科》
《硅谷百科》
2017年特斯拉
2017年特斯拉
MIT黑客全纪录
MIT黑客全纪录
桑达尔·皮查伊
桑达尔·皮查伊
阿里双十一成交额
阿里双十一成交额
最新词条

热门标签

微博侠 数字营销2011年度总结 政务微博元年 2011微博十大事件 美国十大创业孵化器 盘点美国导师型创业孵化器 盘点导师型创业孵化器 TechStars 智能电视大战前夜 竞争型国企 公益型国企 2011央视经济年度人物 Rhianna Pratchett 莱恩娜·普莱契 Zynga与Facebook关系 Zynga盈利危机 2010年手机社交游戏行业分析报告 游戏奖励 主流手机游戏公司运营表现 主流手机游戏公司运营对比数据 创建游戏原型 正反馈现象 易用性设计增强游戏体验 易用性设计 《The Sims Social》社交亮 心理生理学与游戏 Kixeye Storm8 Storm8公司 女性玩家营销策略 休闲游戏的创新性 游戏运营的数据分析 社交游戏分析学常见术语 游戏运营数据解析 iPad风行美国校园 iPad终结传统教科书 游戏平衡性 成长类型及情感元素 鸿蒙国际 云骗钱 2011年政务微博报告 《2011年政务微博报告》 方正产业图谱 方正改制考 通信企业属公益型国企 善用玩家作弊行为 手机游戏传播 每用户平均收入 ARPU值 ARPU 游戏授权三面观 游戏设计所运用的化学原理 iOS应用人性化界面设计原则 硬核游戏 硬核社交游戏 生物测量法研究玩家 全球移动用户 用户研究三部曲 Tagged转型故事 Tagged Instagram火爆的3大原因 全球第四大社交网络Badoo Badoo 2011年最迅猛的20大创业公司 病毒式传播功能支持的游戏设计 病毒式传播功能 美国社交游戏虚拟商品收益 Flipboard改变阅读 盘点10大最难iPhone游戏 移动应用设计7大主流趋势 成功的设计文件十个要点 游戏设计文件 应用内置付费功能 内置付费功能 IAP功能 IAP IAP模式 游戏易用性测试 生理心理游戏评估 游戏化游戏 全美社交游戏规模 美国社交游戏市场 全球平板电脑出货量 Facebook虚拟商品收益 Facebook全球广告营收 Facebook广告营收 失败游戏设计的数宗罪名 休闲游戏设计要点 玩游戏可提高认知能力 玩游戏与认知能力 全球游戏广告 独立开发者提高工作效率的100个要点 Facebook亚洲用户 免费游戏的10种创收模式 人类大脑可下载 2012年最值得期待的20位硅谷企业家 做空中概股的幕后黑手 做空中概股幕后黑手 苹果2013营收 Playfish社交游戏架构

Siri改变语义识别历史 发表评论(0) 编辑词条

目录

Siri改变语义识别历史编辑本段回目录

 Siri绝不仅仅是一种精确的语音输入方式,它将是一次人机互动新革命的序章。

  葛鑫|文

  在10月2日的苹果产品发布会上,iPhone 4S的技术升级幅度可谓令业界失望。然而,被苹果定义为“私人语音助理”来做压轴功能发布的Siri应用,仍然是抓足了人们的眼球。在很多“果粉”眼中,它被认为是替换掉iPhone 4的唯一理由。

  在发布会上,苹果宣称Siri可以支持自然语言输入与识别,用户可“命令”手机读短信、询问天气、设置闹钟等,并且可以搜寻餐厅、电影院等生活信息,甚至是直接订位、订票;另外其与LBS结合服务的能力也相当强悍,能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。

  Siri目前仍然是beta测试版,并且只支持英语、法语和德语。虽然互联网上一系列折磨Siri的视频端子曾出不穷,但被苹果这样的企业推出进行商用,已经意味着“语音识别”——这一已经不算新鲜的科技,进一步实现了人工智能化进而向“语义识别”又迈出了一大步,同时意味着第一款基于它的改变大众生活的消费级产品已经诞生。

  语义识别是人机交互的再一次里程碑,虽然数十年间它的研究进展仅限于对自然语义识别的精确度的提升,但它一直被视为是人类实现非接触式控制机器的第一步。

  巧合的是,进入信息时代以来,键盘(命令行)到鼠标(快捷键),鼠标到多点触控——这两次人机交互的里程碑式的革命都是由苹果公司所引爆。如果此次Siri真的能够如苹果所说,在精确识别自然语义的基础上,其智能化程度能够达到替用户精确分析、选择而真正成为助手的地步,那么苹果公司将再次激发人机交互的伟大革命。

  语义识别的历史

  使机器识别语言是人类早已有之的科技幻想,并且早有实践足迹。早在1920年,美国一家公司所出品的名为“Radio Rex”玩具狗便可以“听从”主人的话而执行走或者停的任务。

  不过在这之后相当长的时间里。这项科技的进展仅限于如何更多、更精确地识别各种口音,进而执行诸如文字显示等十分简单的任务。

  1952年,贝尔实验室的Davis等人成功研究出了世界上第一个能识别10个英文数字发音的实验系统。大规模的语音识别研究是在进入了上个世纪70年代以后,在孤立词和小词汇量句子的识别方面取得了实质性的进展。

  进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。此时语音识别的研究思路也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路,亦即开始了跨学科的人工智能研究道路。

  进入90年代以后,语音识别的研究并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展,诸如听写机等基于语音的信息输入设备此时大量出现。

  由仅限于定义为输入法功能的语音识别,向包含后台数据分析的语义识别转型的关键推动力量,是美国的DARPA(Defense Advanced Research Projects Agency)计划。

  显然,语义识别技术蕴含着着人机互动的远大前景,也因此拥有各方足够高的评价和期许。但它几十年来却缺乏足够的表现。而正是苹果公司往日给社会带来巨大变革的一系列消费级产品,使得当语义识别技术和苹果公司联系到一块的时候,人们不得不重新给予其重大期盼。

  实际上,苹果公司对类似工作的开展也不可谓不早。早在1987年,苹果就展开了类似的研究工作。如果你曾经读过李开复的自传《世界因你不同》,就可能会对在《今日美国》节目中,苹果出品的实验性语音识别设备Casper“调戏”女主持的情节记忆犹新。

  Siri是从斯坦福大学的SRI国际人工智能中心(International Artificial Intelligence Center)剥离的一个项目,该研究中心隶属于DARPA 的CALO子项目。实际上,Siri的联合创始人兼工程副总裁Adam Cheyer正是CALO项目的首席架构师,而CTO Tom Gruber也是出身斯坦福大学的人工智能、语义网专家。同样孵化于斯坦福SRI的还有知名的语音识别开发公司Nuance。

  2010年初,苹果收购Siri,收购价据称是2亿美元。

  Siri的无限可能

  当苹果刚刚收购Siri之时,人们评价它只是一个更好的语音识别工具。然而,事实并非如此。

  多年以来,大众所能接触到的语音识别技术,每年都以缓慢的步伐进步着,不过这种进步的含义仅限于识别准确率,换句话说,它们仅是一种不断提高准确率的输入法。

  实际上,在多年以前,IBM 的语音识别软件在 PC 上就有不错的识别率了,而微软名为Tellme的项目也持续了多年。腾讯最新推出的QQ2011版开始支持语音输入,而中国科大讯飞出品的“讯飞语音输入法”更是Android设备用户所追捧的热门工具应用之一。

  然而,即使达到100%的准确率,仅限于输入法功用的语音识别也无人机互动的意义,它并不是革命性的。

  而Siri所展示出的在准确语音识别的基础之上,进行语义的智能分析判断,并且实现系统功能和后代数据(包括个人偏好和历史记录)的调用,实现所答即所问与服务即所想——真正实现助理的功能,从识别,执行,再到互动之间的飞跃,这些才是Siri的革命性所在。

  与谷歌的Voice Actions等相似应用不同,Siri使用户可以抛弃繁琐的语法结构,甚至思维模式也可以混乱,它会结合上下文结构去分析判断,它甚至能理解许多含义模糊或者引申的语义。

  要做到这一点,搜狗CEO王小川认为需要五个方面的配合:一是对自然语言理解,归纳为“懂”;二是在人机交互的过程中,需要反问确认来降低误差,这个过程称为“问”;三是人机交互还需要根据上下文进行判断和推测,这可以理解为“猜”;除此之外,整个软件系统还需要具备持续的学习能力和良好的扩展能力。

  虽然苹果没有公开Siri更多的技术细节,但是一些实用的例子已经体现出了Siri不仅仅是个语音识别的软件。比如在一段Siri被苹果并购前的演示视频显示,当用户说“ I like a romantic place for Italian food near my office”(我想在办公室附近找一个浪漫的意大利菜餐厅)。

  Siri则回答:“I am looking for a Italian restaurants which reviews say are romantic near your wok in San Jose(从大家评论的结果来看,在你公司附近最浪漫的餐厅在圣何塞)…”

  这个回答说明 Siri 听懂了 romantic 是个形容词,知道 near my office 是个地方。并且,找到了以前存储的用户的工作地点。更关键的是,他知道怎么判断一个餐馆是否 romantic!——通过Yelp.com的食客评论。

  Siri的这种革命将会改变诸多既有格局,并且进一步解放科技力量。首先,从产品的科技属性上说,Siri将肩负起苹果公司引爆第三次人机互动革命的重任。我们完全有理由想象:在键盘、轨迹球相继在移动终端上消失之后,虚拟键盘也即将消失,甚至菜单功能项也一并会消失了。

  其次,从产业格局上说,Siri将会成为使苹果公司继续保持优势的利器。目前,从Android 4.0和Windows Phone 7(WP7)的芒果系统来看,谷歌和微软在移动终端领域正在缩小与苹果的距离,而苹果的iPad 2和iPhone 4S却相继使“果粉”失望。这其实也是不可避免的,毕竟硬件的持续创新是有一定极限存在的。

  此时,Siri被苹果所适时地祭出,有望再次提高Android和WP7设备和iOS设备进行竞争的门槛。谷歌的Voice Actions也是具有后台功能调用的类似应用,然而,当硅谷编辑们打开 Voice Actions时会说 “send a text to Mike”,而拿到 iPhone4S时他们则会用“ I Love You”在测试Siri的强大功能。在这一点上来看,被用户开心“调戏”的Siri,其实已经领先其他的产品进入智能的阶段。

  Siri的威力还将从谷歌的核心业务——搜索中抢夺地盘。比如,你可以通过吩咐Siri来打开 Yelp 的 Reviews 与进行OpenTable 的预定,那还要 Google 搜索干什么?从这个意义上说,Siri 并不是社会化搜索引擎(比如Google收购的aardvark),却胜似社会化搜索引擎。

  更为重要的是,Siri将为苹果带来巨量的用户数据。而这些数据是其他竞争对手所无法得到的。也正是基于此,对于苹果公司来说,Siri有望强化它的三个弱项——云计算、社交、家庭娱乐设备。

  如果苹果的10万名开发人员在Android开发人员之前得到这些数据,Android和iOS竞争的结局便可想而知。可以肯定的是,Siri将不仅仅是一个应用程序,它同时也是一个自然用户界面系统,它使得服务器端可以整合来自大量开放API的数据。甚至,由于占据用户与数字设备和互联网的第一触点,一个“应用导航”甚至“Siri App Store” 也不是不可能出现——当你说:“我要看关于奥巴马的新闻”,Siri调用出的会是谁的新闻网站或者是新闻应用?这将是很有意思的事情。

  在苹果发布Siri之前,Siri的联合创始人Norman Winarsky在接接受媒体采访时如此预言Siri的未来图景:

  “毫无疑问,苹果的虚拟个人助理是开创性的,这是一个改变世界的事件。在技术方面,Siri至少领先竞争对手2年,因为这不是个语音识别软件,而是真正的、可商用的人工智能技术。”

Siri工作方式详解:本地语音识别+云计算服务编辑本段回目录

Siri的强大让无数网友惊叹“人类已经无法阻止Siri了”Siri的强大让无数网友惊叹“人类已经无法阻止Siri了”

  导语:ZDNet网站今天刊文称,苹果的语音助理服务Siri时髦而聪明,在一些情况下也很有用。那么Siri是如何工作的?“语音识别”是Siri的核心,但这并未解释Siri理解用户所说内容的详细过程。本周有业内人士撰文,解释了Siri的工作步骤。

  以下为文章全文:

  当用户对iPhone说话后,语音将被立即编码,成为一个压缩的数字文件,其中包含着所有有用的信息。这一信息将通过互联网服务提供商(ISP)的网络被发送至云计算服务器,而服务器中的模块将识别用户所说的内容。

  与此同时,用户的语音将在手机端被识别。安装在手机中的语音识别器将与云计算服务器通信,了解指令是否适合在本地被处理。用户的指令可能要求手机播放一首歌曲,而另一些指令则有可能需要手机连接至网络,寻求进一步的帮助。如果语音识别器认为,手机内部模块足以处理用户的指令,那么将会告知云计算服务器,不再需要服务器的支持。

  根据用户的声调和语序,服务器将对语音进行静态对比,了解语音中包含哪些字母。与此同时,本地的语音识别器也将对用户语音进行静态对比。在服务器端和手机端,可能性最高的识别内容将优先获得处理。

  此时,识别出的内容已经包含一系列的元音和辅音字母。随后这些内容将被发送至一个语言模块,以评估用户的语音中包含哪些单词。根据不同的可信度,计算机将创建一个用户所说内容的列表。

  如果判断结果具有足够的可信度,那么计算机将能理解用户所说的内容,例如发送短信或查找联系人列表中的联系人。随后用户将会看到手机屏幕上出现所需的内容,而不必手动操作。在这一过程中,如果用户的语音含义过于模糊,那么计算机将会询问用户,例如用户希望查找的联系人是埃里卡·奥尔森(Erica Olssen)还是埃里卡·施密特(Erica Schmidt)。(维金)

→如果您认为本词条还有待完善,请 编辑词条

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
0

标签: Siri改变语义识别历史

收藏到: Favorites  

同义词: 暂无同义词

关于本词条的评论 (共0条)发表评论>>

对词条发表评论

评论长度最大为200个字符。