科技: 人物 企业 技术 IT业 TMT
科普: 自然 科学 科幻 宇宙 科学家
通信: 历史 技术 手机 词典 3G馆
索引: 分类 推荐 专题 热点 排行榜
互联网: 广告 营销 政务 游戏 google
新媒体: 社交 博客 学者 人物 传播学
新思想: 网站 新书 新知 新词 思想家
图书馆: 文化 商业 管理 经济 期刊
网络文化: 社会 红人 黑客 治理 亚文化
创业百科: VC 词典 指南 案例 创业史
前沿科技: 清洁 绿色 纳米 生物 环保
知识产权: 盗版 共享 学人 法规 著作
用户名: 密码: 注册 忘记密码?
    创建新词条
科技百科
  • 人气指数: 2555 次
  • 编辑次数: 1 次 历史版本
  • 更新时间: 2012-12-08
土土
土土
发短消息
相关词条
纳德拉带领微软中兴
纳德拉带领微软中兴
12张图看微软40年
12张图看微软40年
微软40周年
微软40周年
盖茨全家度假
盖茨全家度假
微软财报解读
微软财报解读
塞亚·纳德拉
塞亚·纳德拉
微软市场份额
微软市场份额
鲍尔默退休
鲍尔默退休
鲍尔默九大失误
鲍尔默九大失误
后鲍尔默时代
后鲍尔默时代
推荐词条
希拉里二度竞选
希拉里二度竞选
《互联网百科系列》
《互联网百科系列》
《黑客百科》
《黑客百科》
《网络舆情百科》
《网络舆情百科》
《网络治理百科》
《网络治理百科》
《硅谷百科》
《硅谷百科》
2017年特斯拉
2017年特斯拉
MIT黑客全纪录
MIT黑客全纪录
桑达尔·皮查伊
桑达尔·皮查伊
阿里双十一成交额
阿里双十一成交额
最新词条

热门标签

微博侠 数字营销2011年度总结 政务微博元年 2011微博十大事件 美国十大创业孵化器 盘点美国导师型创业孵化器 盘点导师型创业孵化器 TechStars 智能电视大战前夜 竞争型国企 公益型国企 2011央视经济年度人物 Rhianna Pratchett 莱恩娜·普莱契 Zynga与Facebook关系 Zynga盈利危机 2010年手机社交游戏行业分析报告 游戏奖励 主流手机游戏公司运营表现 主流手机游戏公司运营对比数据 创建游戏原型 正反馈现象 易用性设计增强游戏体验 易用性设计 《The Sims Social》社交亮 心理生理学与游戏 Kixeye Storm8 Storm8公司 女性玩家营销策略 休闲游戏的创新性 游戏运营的数据分析 社交游戏分析学常见术语 游戏运营数据解析 iPad风行美国校园 iPad终结传统教科书 游戏平衡性 成长类型及情感元素 鸿蒙国际 云骗钱 2011年政务微博报告 《2011年政务微博报告》 方正产业图谱 方正改制考 通信企业属公益型国企 善用玩家作弊行为 手机游戏传播 每用户平均收入 ARPU值 ARPU 游戏授权三面观 游戏设计所运用的化学原理 iOS应用人性化界面设计原则 硬核游戏 硬核社交游戏 生物测量法研究玩家 全球移动用户 用户研究三部曲 Tagged转型故事 Tagged Instagram火爆的3大原因 全球第四大社交网络Badoo Badoo 2011年最迅猛的20大创业公司 病毒式传播功能支持的游戏设计 病毒式传播功能 美国社交游戏虚拟商品收益 Flipboard改变阅读 盘点10大最难iPhone游戏 移动应用设计7大主流趋势 成功的设计文件十个要点 游戏设计文件 应用内置付费功能 内置付费功能 IAP功能 IAP IAP模式 游戏易用性测试 生理心理游戏评估 游戏化游戏 全美社交游戏规模 美国社交游戏市场 全球平板电脑出货量 Facebook虚拟商品收益 Facebook全球广告营收 Facebook广告营收 失败游戏设计的数宗罪名 休闲游戏设计要点 玩游戏可提高认知能力 玩游戏与认知能力 全球游戏广告 独立开发者提高工作效率的100个要点 Facebook亚洲用户 免费游戏的10种创收模式 人类大脑可下载 2012年最值得期待的20位硅谷企业家 做空中概股的幕后黑手 做空中概股幕后黑手 苹果2013营收 Playfish社交游戏架构

微软宇宙翻译器 发表评论(0) 编辑词条

目录

微软宇宙翻译器编辑本段回目录

微软研究院最新展示的“语音机器”,俨然是《星际迷航》中“宇宙翻译器”的雏形,它不仅能在演讲现场完成同声传译工作,还能顺畅地将演讲在声音和文本间相互转换。

科幻剧《星际迷航》中有一枚“宇宙翻译器”,使用者将其别在胸前的徽章里,不仅能听懂各种外星语言,还能将自己的语言转换为对方听得懂的语言,在宇宙间通行无阻。在剧中,这样的翻译器被设定为 22 世纪才得以问世。然而在 10 月底天津举行的“21 世纪计算大会”上,微软首席研究官里克·雷斯特博士带来的语音机器,俨然已有了“宇宙翻译器”的雏形。

雷斯特的演讲主题叫做“语音机器翻译实时演示”。在演示中,语音机器不仅能完成同声传译工作,还能将演讲变成可编辑的双语文本。

演示的前半段稍显平淡。雷斯特博士开始演讲时,他头顶的三块大屏幕只亮了中间一块,实时播放演讲的画面,画面下方滚动的字幕甚至不如一般的电影字幕那样流畅,而是等雷斯特说完一句话以后,几个单词才一起“蹦”出来,完成一条字幕,;接着,左边的显示屏亮起来,变成一个黑色界面的写字板,滚动出现着放大了的演讲字幕,和中间画面保持同速,紧跟着,右边的屏幕亮了起来,同样是黑色写字板的界面,但内容却迥然不同。写字板分成上下两部分,在上面 2/3 的位置上,随着雷斯特继续演讲,他念到的英文单词被一个个提取出来,列在屏幕左边,单词所对应的中文词语随即出现在右列,看上去像一幅单词表。然后,在写字板下方,那些中文词语组成一条条完整的中文句子,正是演讲词的中译文,几乎和画面中的英文字幕同时显现,基本没有什么语法差错。随着中文字幕的滚动出现,台下 2000 多名观众爆发出阵阵欢呼和掌声。

在中文译文滚动出现了片刻之后,一个酷似雷斯特的声音响起,以标准普通话一句句重复雷斯特的演讲,直至演讲结束。

用计算机完成同声传译,这对于每天都被不断更新的新奇软件弄得眼花缭乱的普通用户而言,好似一项过于平实的技术,简直就像是翻译软件的升级版;但事实上,微软此次演示的新技术,包含着计算机语音识别和个性化语音合成两个技术的重要突破,可以说是自 1997 年以来这两项技术精确度最高的一次演示。这项技术甚至可以看作是未来通用型对话工具的前身,据雷斯特介绍,这项技术不仅能英译汉,还能翻译德语、西班牙语等26种语言。

新技术成功演示之后,雷斯特在微软的一篇官方博客上撰文称:“我们可能不必等到 22 世纪才获得一个类似《星际迷航》宇宙翻译器那样的设备,我们希望移除语言间的障碍,这样人与人互相理解的障碍也就消除了。”

语音机器的暗里乾坤

微软的语音机器看起来担当的是翻译的功能,但技术难点却是在口语的语音识别上。它实际上完成的是一系列整合工作,正如雷斯特博士所演示的那样,首先,计算机要识别人声,提取出正确的单词,翻译成相应的外语单词,再根据外语的语法形成句子,最后,还要经过从文本到语音的系统,以雷斯特自己的声音“说”出翻译后的句子。

在这一系列的过程中,翻译是其中最简单的部分,难的是如何让机器“听懂”人话。关于这项技术的研究,人类实际上已经为之奋斗了 60 多年了。

一开始,计算机研究者所用的方法是简单的模式匹配,即让计算机检查人类语音产生的波型,尽量寻找与之匹配的单词。这种方法有时候有效,但更多时候则淹没在各种相似或含混的音调中,不知所云。这样的系统无法运用于实际。

上世纪 70 年代末,一种叫做“隐式马尔可夫模型”(HMM)的计算方法令语音识别技术取得重大突破。在语音识别领域中,这实际上是一种思路的转向,即从语言发音的捕捉和模仿变成尽可能多地搜集语境,建立一种更为稳健的统计语音模型,帮助机器在人机对话中理解句子的意思;而在近几年中逐渐发展起来的“人工神经网络”则加速了语言识别技术的“自学”功能,通过大量对话,让研究人员能“训练”出更富有辨别力的语音识别机器。

当然,到目前为止,语音识别仍是一项进化中的技术。时至今日,即使是最佳语音系统,在任意语音的单词识别上出错率还高达 20-25%,而微软的新技术又将这一错误率降低了 30%,这意味这之前四五个单词中就会出现一个错误,而现在七八个单词中才会出现一个错误。

除了微软,谷歌最近也开始用神经网络技术发展其语音识别服务。然而微软的独特性在于,他们的语音机器同时整合了语音识别、文本翻译和个性化的语音合成等技术。微软的研究人员录下数小时中国人说话的语音,从中储备所需要的语汇,再从预先录制的英文演讲数据中提取雷斯特的声音属性,当雷斯特开始说英文时,系统便自动整合所有基础技术,提供一个语音到语音的体验—用雷斯特的声音说出对应的中文。在此之前,这类技术大多只能说出人工合成的文本,而无法对人声进行同步。

人工智能的“学习进度”

微软展示的这套系统目前还远远称不上完美,雷斯特博士本人也在微软的官方博客上这样表示。然而这套系统引人注目的地方在于它所能开辟的未来。雷斯特在写给《麻省理工科技创业》的邮件中提到,虽然他和微软亚洲研究院的研究员尚未用这套系统和公司之外的人进行过对话,但它“足以实现本不可能实现的交流。”

“我们还不知道这一技术能达到的精度极限,它太新了。随着我们用数据对系统进行‘训练’,它似乎会变得越来越出色。”雷斯特说。

这套技术还有望在人工智能领域取得进展。和人类一样,人工智能的“学习”也要基于一些官能的发展。目前的技术已经令计算机能看、能听、能思考,并且在与真实世界的接触中不断将这些能力精细化。苹果的 Siri 个人语音助理和谷歌的街景地图都是基于这样的思路展开研究的。接下来,人工智能需要和人更自然地交流,听从指令,完成驾驶汽车、在工厂劳作这类任务,而在自然用户界面(NUI)领域,对计算机来说最重要也最难的一点就是识别人类语音,与其自然交流,而微软展示的技术,正是有望攻克并完善这一环节。

参考文献编辑本段回目录

http://www.bundpic.com/2012/12/20298.shtml

→如果您认为本词条还有待完善,请 编辑词条

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
0

标签: 微软宇宙翻译器

收藏到: Favorites  

同义词: 暂无同义词

关于本词条的评论 (共0条)发表评论>>

对词条发表评论

评论长度最大为200个字符。