统计排行幸运大转盘每日签到社区服务会员列表最新帖子精华区博客帮助
今日发帖排行
主题 : 无声语音识别暂难成消费级产品
敬业心离线
级别: 论坛版主

UID: 20208
精华: 50
发帖: 41625
财富: 567143 鼎币
威望: 49 点
贡献值: 200 点
会员币: 0 个
好评度: 1609 点
在线时间: 8485(时)
注册时间: 2011-09-01
最后登录: 2023-11-13
楼主 发表于: 2019-02-19  

无声语音识别暂难成消费级产品

    产业界 ~$<@:z{*  
    本报记者 刘 艳 XCY4[2*a>  
    世界知识产权组织(WIPO)日前公布了一项微软申请的“无声语音输入”(Silent Voice Input)专利,丰富了“机器听懂人话”的场景。 -)/>qFj )  
    虽然还很难判断使用者能否接受该专利的另类语音输入方法及该专利的市场前景,但很多看似天马行空的研发往往孕育着巨大的商机,如果它们能找到正确的市场和恰当的推动方法。 iZF{ 9@  
    验证了语音交互技术的又一种可能 es{ 9[RHK  
    语音识别技术离完美还很远,噪杂的环境、吐字不清的词汇、俚语及方言都会让机器陷入混乱,开发更精准更私密的语言识别技术,仍是包括微软在内的产业和学界的主要科研方向。 ;+\;^nS3d  
    通常情况下,语音输入首先要发出声音,其次需要一个相对安静的环境。根据微软这项专利的说明,只要让麦克风等设备靠近嘴巴,该语音输入解决方案就能捕捉到极低的,如同耳语般的声音信号,并过滤掉周围的杂音。除自己之外,别人听不见或听不懂。 /V~(!S>  
    当然,说话方式可能需要练习。一般情况下,我们讲话时吐气,微软的解决方案要求使用者在吸气时执行语音输入。 [;}c@  
    此外,尽管语音输入的性能持续被改善,但除了“调戏”siri,很少有人会在公共场所一本正经的用语音输入,怕打扰别人,也有语音内容私密性的顾虑。在这种情况下,微软的专利不失为一种妥善的解决方案。 ?Eed#pb_  
    而麻省理工学院的研究人员开发的新型人机接口“AlterEgo”则更为魔幻,骨传导耳机环绕用户的耳朵和下巴,计算机系统处理并翻译耳机接收的数据并输出反应,如同人们在阅读时的“默念”。 ?IWS  
    这个系统有点像“肌电假体”,当你准备作出某种行为时,大脑会告诉肌肉怎么做,同理,当你想着某个词时,大脑会向面部及喉部肌肉发送信号。 w*x}4wW  
    主要研究人员Arnav Kapur表示,他们的初衷是将人类和机器以某种方式进行混合,仿佛人类自身认知的内部延伸。 F);C?SW"  
    如果这台设备真的能商用,确实意义非凡。但是,当前的无声语音识别都处在技术验证阶段,这究竟是一种无用的“情怀技术”,还是可演变为用于特殊场景的产品,尚待业界探索。 ?*HlAVDcFT  
    工程师们还在努力弥补语音技术缺陷 Oi RqqD  
    语音技术不仅具有典型的“赋能”特征,更是当前人们与人工智能互动的最重要界面,已同焦土战般激烈的“百箱大战”给语音技术市场带来很多幻象。 BL7%MvDQ  
    事实上,现在大多数基于语音技术的硬件产品与智能服务交互体验仍然存在很多缺陷,研究机构与产业公司还在技术研发层面不断努力完善。 O`4X[r1LD  
    微软全球资深技术院士、微软云与人工智能事业部负责人黄学东博士,是微软语音技术的创始人,微软的语音识别、语音合成技术研发团队都由他一手组建。 6gn|WO=W f  
    在黄学东的带领下,2016年10月18日,微软语音团队识别研究团队在 Switchboard语音识别基准测试中刷新自己的纪录,词错率低至5.9%,达到了人类的水平。 mvnK)R_  
    306天后,这一纪录再次被微软刷新,词错率降低到 5.1%,超过专业速记员的误差水平,被学术界看作是“人工智能在感知上的一重大里程碑”。 !G37K8 &&*  
    微软全球执行副总裁沈向洋说:“尽管这项语音识别系统还存在一些应用场景的限制,但我相信未来几年内,机器将会完全超越人类的识别水平。” gKnAw+u\  
    尽管各类科研机构为了实现语音识别准确率的“人类对等”,奋斗了二十几年,但目前在嘈杂环境下较远的麦克风的语音识别、方言识别、训练数据有限的特定说话风格或较少人使用的语言的语音识别等,都未达到人类水平。 _*_zyWW_j  
    与此同时,Switchboard虽然是全球语音研究人员用了20多年的通用测试数据集,很多技术公司与组织在上面做语音方面的相关研究,它有着全球开发人员多年来的技术积累,但并不意味着测试结果可以“平移”到现实环境中。 uxBk7E%6  
    如黄学东所说,公开性的测试、发表的学术文章,与现实产品虽然不能完全割裂,但消费级产品与商业场景,需要不一样的评判标准。
评价一下你浏览此帖子的感受

精彩

感动

搞笑

开心

愤怒

无聊

灌水
敬业心
描述
快速回复

谢谢,别忘了来看看都是谁回帖哦?
验证问题:
正确答案:72
按"Ctrl+Enter"直接提交
上一个下一个