科技: 人物 企业 技术 IT业 TMT
科普: 自然 科学 科幻 宇宙 科学家
通信: 历史 技术 手机 词典 3G馆
索引: 分类 推荐 专题 热点 排行榜
互联网: 广告 营销 政务 游戏 google
新媒体: 社交 博客 学者 人物 传播学
新思想: 网站 新书 新知 新词 思想家
图书馆: 文化 商业 管理 经济 期刊
网络文化: 社会 红人 黑客 治理 亚文化
创业百科: VC 词典 指南 案例 创业史
前沿科技: 清洁 绿色 纳米 生物 环保
知识产权: 盗版 共享 学人 法规 著作
用户名: 密码: 注册 忘记密码?
    创建新词条
科技百科
  • 人气指数: 4122 次
  • 编辑次数: 1 次 历史版本
  • 更新时间: 2012-06-07
高兴
高兴
发短消息
相关词条
天上互联网混战
天上互联网混战
中国创客地图
中国创客地图
智能农场
智能农场
互联网未来形态畅想
互联网未来形态畅想
眼控技术
眼控技术
HTML 5发展10大趋势
HTML 5发展10大趋势
手势键盘
手势键盘
HTML5的未来
HTML5的未来
迎接3D打印时代
迎接3D打印时代
汽车智能化
汽车智能化
推荐词条
希拉里二度竞选
希拉里二度竞选
《互联网百科系列》
《互联网百科系列》
《黑客百科》
《黑客百科》
《网络舆情百科》
《网络舆情百科》
《网络治理百科》
《网络治理百科》
《硅谷百科》
《硅谷百科》
2017年特斯拉
2017年特斯拉
MIT黑客全纪录
MIT黑客全纪录
桑达尔·皮查伊
桑达尔·皮查伊
阿里双十一成交额
阿里双十一成交额
最新词条

热门标签

微博侠 数字营销2011年度总结 政务微博元年 2011微博十大事件 美国十大创业孵化器 盘点美国导师型创业孵化器 盘点导师型创业孵化器 TechStars 智能电视大战前夜 竞争型国企 公益型国企 2011央视经济年度人物 Rhianna Pratchett 莱恩娜·普莱契 Zynga与Facebook关系 Zynga盈利危机 2010年手机社交游戏行业分析报告 游戏奖励 主流手机游戏公司运营表现 主流手机游戏公司运营对比数据 创建游戏原型 正反馈现象 易用性设计增强游戏体验 易用性设计 《The Sims Social》社交亮 心理生理学与游戏 Kixeye Storm8 Storm8公司 女性玩家营销策略 休闲游戏的创新性 游戏运营的数据分析 社交游戏分析学常见术语 游戏运营数据解析 iPad风行美国校园 iPad终结传统教科书 游戏平衡性 成长类型及情感元素 鸿蒙国际 云骗钱 2011年政务微博报告 《2011年政务微博报告》 方正产业图谱 方正改制考 通信企业属公益型国企 善用玩家作弊行为 手机游戏传播 每用户平均收入 ARPU值 ARPU 游戏授权三面观 游戏设计所运用的化学原理 iOS应用人性化界面设计原则 硬核游戏 硬核社交游戏 生物测量法研究玩家 全球移动用户 用户研究三部曲 Tagged转型故事 Tagged Instagram火爆的3大原因 全球第四大社交网络Badoo Badoo 2011年最迅猛的20大创业公司 病毒式传播功能支持的游戏设计 病毒式传播功能 美国社交游戏虚拟商品收益 Flipboard改变阅读 盘点10大最难iPhone游戏 移动应用设计7大主流趋势 成功的设计文件十个要点 游戏设计文件 应用内置付费功能 内置付费功能 IAP功能 IAP IAP模式 游戏易用性测试 生理心理游戏评估 游戏化游戏 全美社交游戏规模 美国社交游戏市场 全球平板电脑出货量 Facebook虚拟商品收益 Facebook全球广告营收 Facebook广告营收 失败游戏设计的数宗罪名 休闲游戏设计要点 玩游戏可提高认知能力 玩游戏与认知能力 全球游戏广告 独立开发者提高工作效率的100个要点 Facebook亚洲用户 免费游戏的10种创收模式 人类大脑可下载 2012年最值得期待的20位硅谷企业家 做空中概股的幕后黑手 做空中概股幕后黑手 苹果2013营收 Playfish社交游戏架构

语音识别技术远大前程 发表评论(0) 编辑词条

目录

语音识别技术远大前程 编辑本段回目录

声控界面在手机、电视和汽车上不断出现。一家公司相信可以让声音控制一切。
来源:Flickr abelmon007/Creative Commons

与计算机交谈的想法直到最近还似乎完全是科幻小说里的情节。如果你让一台电脑去“把舱门打开”——不好意思,那只是电影里的台词。

不过,情况正在改变,迅速改变。现在有越来越多的人开始与自己的智能手机交谈,让其发送电子邮件和短信、搜索方位或在网上搜寻信息。

Nuance通信公司(Nuance Communications)首席技术官弗拉德·塞吉诺阿(Vlad Sejnoha)说:“我们现在正处在一个转折点上,语音和自然语言理解突然成了前沿事物。我认为语音识别将真正颠覆现在的电脑界面。” 该公司位于马萨诸塞州伯灵顿市(Burlington, Massachusetts)。公司的龙软件(Dragon software)以及其他产品统治着语音识别市场。

语音识别的实现要部分归功于让机器听懂人类语言的技术所取得的稳步发展,这些技术包括机器学习、统计数据挖掘技术等。尖端语音技术已经在呼叫中心得到了广泛应用,它可以通过菜单引导用户操作,并识别出已经生气的,应转接至真人客服代表处理的顾客。

现在,高性能移动设备的快速普及使语音界面变得更有用,也更流行。

麻省理工学院(MIT)的一位高级研究人员吉姆·格拉斯(Jim Glass)从1980年代起就致力于语音界面的研发。他认为,现在的智能手机的处理能力已经赶上他在1990年代的实验室中的电脑。智能手机也通过与云系统连接获得了高带宽数据传输能力,云服务器可以处理语音识别以及理解语音问询等繁重任务。格拉斯说:“数据与计算能力之间越来越广泛深入的结合表明,你在今天可以做以前做不到的事情。你可以运用更复杂的统计模型。”

有关移动语音界面的最明显的例子当然就是Siri,这是最新款iPhone中内置的一种语音激活式个人助理程序。不过,Android、Windows Phone平台以及其他移动系统也内置了语音功能以及许多此类应用程序。虽然这些语音界面仍然有相当大的局限性,但是我们正在向可以真正与之交谈的机器界面慢慢接近。

Nuance公司是语音技术兴起的核心企业。该公司1992年创立时名为Visioneer,到现在已经开展了数十项语音技术业务。Nuance目前在全世界35个国家和地区有6000多名员工,2012年第二季度收入达3亿9030万美元,较去年同期增长22.4%。

Nuance公司近年来将其语音识别技术用于满足新兴市场对语音界面的需求。公司为许多企业提供语音识别技术,业界广泛认为Siri的语音组件是该公司提供的。

Nuance公司首席技术官表示,语音技术可以与移动计算实现完美搭配,因为用户的手和眼睛都被占用了——还因为只需一条语音指令,就能达到那些一般需要多次滑动和按键才能取得的效果。塞吉诺阿说:“你突然找到了一块新的‘积木’,可以用这种新方式去解决问题。我还认为,我们在以后设计现代设备的基本用户界面时,都要记住这一点。”

受到语音软件在手机上成功应用的启发,Nuance公司进而希望将自家的语音界面应用于更多场合,最引人注目的是在电视和汽车上,二者都是成熟的、广受欢迎的创新平台。

观众现在要在电视上寻找节目或是预约录制节目,就必须用遥控器在难用的菜单里找来找去,遥控器也从来不是用作输入文字信息的。那些本该让人们很轻松就找到节目的产品,例如谷歌电视(Google TV),对那些只是想在晚上找个娱乐节目放松一下的人们来说过于复杂了。

塞吉诺阿在Nuance研究实验室展示了这种运行在模拟客厅中电视上的名为“龙”的软件。一位工作人员说:“龙,找几部梅丽尔·斯特里普(Meryl Streep)演的电影出来。”软件界面马上扫描频道列表,从中选出了几部合适的电影。这种技术的一个版本已经应用在三星(Samsung)公司生产的几款电视机上。

业界盛传苹果公司正在开发自家的电视机,可能会把Siri当作这种电视机的遥控器。沃尔特·艾萨克森(Walter Isaacson)在为史蒂夫·乔布斯(Steve Jobs)所作的传记中更暗示了这一点,这位已故的苹果公司前CEO曾表示他将“最终解决”电视界面问题。

与此同时,福特公司(Ford)所生产汽车上的同步娱乐系统已经应用了Nuance公司的技术,能为驾驶员显示方位、天气信息和歌曲等。约有400万辆当前已经上路的福特轿车装有语音识别版同步系统。Nuance公司在上周发布了Dragon Drive软件,可以让其他汽车制造商为其产品添加语音识别功能。

无论是汽车还是电视都颇具挑战性。语音界面在智能手机上变得流行的一个原因是,用户可以直接对着设备的麦克风说话。Nuance公司为了保证电视机和汽车上的语音系统也能正常工作(这些设备的工作环境都有更大的背景噪音),正在开展阵列式麦克风和降噪技术方面的实验。

Nuance公司为那些想在应用程序中内置语音识别技术的开发人员发布了一系列软件开发工具包。位于俄勒冈州亚什兰市(Ashland, Oregon)的Montrue科技公司(Montrue Technologies)使用Nuance公司的移动医疗软件开发工具包(SDK)开发了一款iPad应用,医生可以通过口述记笔记。

Montrue科技联合创始人、首席执行官布赖恩·菲尔普斯(Brian Phelps)就是一位急诊医生。他说:“语音识别已经有了很大进步,它已经达到即开即用就能有惊人的准确性。”

这些软件开发工具包反过来也成就了Nuance公司的地位,软件通过其服务器发送更多的语音数据,帮助该公司改进了语音识别和语言处理算法。Nuance公司称其数据都以匿名的格式保存,以保护隐私。

塞吉诺阿相信,移动语音界面在几年内将更加流行,也更加强大。他说:“我应该只是对它说话,而不用去碰它。它会一直等着我的命令语句,然后就只是去执行——显示日历、编好一条短信或是打开一个浏览器并跳转到你想看的页面。”

人们甚至与自己穿戴的计算机交谈,就像谷歌正在开发的那种可以拍照的眼镜。据Nuance公司知情人士透露,他们正在积极筹划让语音技术能够在可穿戴式计算机上运行。

本文为美国Technology Review

→如果您认为本词条还有待完善,请 编辑词条

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
1

标签: 语音识别技术远大前程

收藏到: Favorites  

同义词: 暂无同义词

关于本词条的评论 (共0条)发表评论>>

对词条发表评论

评论长度最大为200个字符。