语音评测打分软件(语音评测的原理)

编辑：昊阳发布时间：2022-06-02 11:58:00

微软上线语音评测功能：基于Azure云构建，赋能口语学习的教与学”

近年来，随着人工智能技术的不断成熟，企业数字化转型步伐的加快，AI的触角逐渐深入到各个场景，使人类的生产生活变得更加智慧化。在听觉方面，智能语音技术成为各大科技公司们攻坚的重要领域。

一家老牌科技巨头微软，在语音合成技术、语音识别技术上深耕多年，面向全球合作伙伴开放和落地其技术能力，提供多种智能语音解决方案。

5月中旬，在2020微软Build开发者大会上，微软上线了语音评测功能，该功能基于Azure语音服务Speech-to-text（语音转文本）构建。用户可以上传跟读文本和音频对发音人的语音从准确度，流利度和完整度进行评测。在教育领域，尤其是口语学习方面，因具有高识别准确率、拟专家打分的高一致性，可以让口语学习的教和学更加高效方便。

近日，微软亚太研发集团智能语音团队接受了雷锋网等媒体的线上采访，对微软智能语音评测技术的优势和应用场景等内容进行了详细介绍。

微软亚太研发集团云计算与人工智能事业部产品总监丁秉公、微软亚太研发集团云计算与人工智能事业部资深产品经理马莉莎参与了本次采访。

语音评测的四个维度

微软亚太研发集团云计算与人工智能事业部资深产品经理马莉莎表示，目前语音评测市场需求的考量方向主要有四个维度：

专业性。

实时性。

稳定性。

可定制性。

对于专业性，微软语音评测的每个语言从10万小时以上的母语大数据中学习当地语言纯正口音发音，针对各年龄段多维度精准打分，从文章——句子——词——音素四个环节，层层评估，拟专家团打分一致性高。

马莉莎提到，语音评测的专业性考量对比的是和母语专家评测的一致性。业内通用皮尔森相关系数来反映两个序列线性相关程度的统计量。范围在-1到1之间，1表示完全相关，-1表示完全相反，0表示乱序无关，数值越大表示相关度越高。微软语音评测在一致性上达到了0.75，与母语专家水平接近。

对于实时性，微软语音评测支持音频上传流式处理，也就是边朗读边处理，读完立即反馈评估结果。

对于稳定性，微软语音评测基于NLP模型构建模糊匹配文本，针对垂直领域的特定场景的容错率有良好的包容性，漏读、错读、重复读不影响打分有效性与准确性。

对于可定制性，ASR基础模型与微软在语音领域的全面技术能力，可以实现个性化评分标准，可适配口音、适配噪音环境以及适配年龄层等。

据了解，微软语音评测除了支持英语评测外，还可扩展支持全球 40 多个国家和地区的语言评测，广泛适用于教育领域解决方案的合作伙伴、APP开发者以及语言学校、培训中心、教育机构、考试中心的各种语言学习、口语练习和考试等场景的开发。

最大的技术难点在于多点平衡

语音评测能力，在教育领域主要的受众人群包括老师、学生，通常被广泛应用于教师评估、作业练习和语言学习场景中。那么，对于口语学习，教育用户的痛点是什么？语音评测最大的技术难点又是什么？

对此，马莉莎表示，对于学生来说，他们的痛点在于非母语口语学习。学生们在学习新语言的过程中，如何及时准确地给学生的发音进行反馈，让学生随时随地更方便地联系对于提升口语学习的有效性至关重要。

对于学校和教育机构来说，他们的痛点在于老师的资源有限，如何把现有的优质教师资源拓展到一个稳定的教学系统里。因此，老师需要这样一个能力，不仅能模拟母语专家打分，还能够学习到老师们的评测方法，让老师们可以使用评测高效地一对多给学生提供在线和线下的指导和帮助。

教育用户的这些痛点，对语音评测技术提出了更高的要求。马莉莎认为，语音评测最大的技术难点在于语音识别技术本身，首先是多语言的理解和识别，不同的打分场景，包括噪声环境、不同年龄段学生的发音情况等都要进一步优化。

其次就是要达到包容性和鲁棒性（注：robust，技术术语，此处可理解为稳健性或抗变性）的平衡。既要模型做得好、识别好，还要能够动态、实时构建，对大模型达到高实时地调用，而这些需求加起来就是难上加难了。

“在语音评测上我们的基础储备非常坚实，才能把方方面面做到比较好，以一个综合的体现呈现给用户，所以我们不是难在一个点上，而是多点平衡。”

据悉，积极探索数字化转型和新教育模式的好未来，也是微软语音评测功能的客户之一。好未来AI科学家胡翔宇表示：

“如何快速而有效地针对不同学生进行口语评测是我们在线上线下的英语教学中遇到的一大挑战。微软智能语音服务为好未来内部以及我们的合作伙伴提供强大的实时语音评测能力。根据我们的测试，微软语音服务的发音测评功能更好地适配了我们的收音环境，并且具备更高的一致性，更加贴近专家的评估结果。”

基于Azure云构建的一种能力：

算法、数据、算力

微软亚太研发集团云计算与人工智能事业部产品总监丁秉公介绍，一般来说，我们看AI技术主要看三个方面：算法、数据、算力。从这三个方面来说，微软的语音评测功能有自己独特的优势。

在算法层面，微软在智能语音领域深耕多年，其语音识别已经达到人类的水平，错误率在5.1%左右，正是有了这个算法基础，所以在语音识别延伸的应用——语音评测方面能够比较有信心。

在数据层面，依靠微软在语音方面的多年积累，通过将近10万多小时母语的数据进行训练，最后学习到当地比较纯正的口音。

在算力层面，语音评测所有的技术都是基于微软Azure云构建的，Azure是全球拥有数据中心最多、覆盖区域最多的云，可支撑用户大规模的计算需求。同时，Azure符合欧盟GDPR（《通用数据保护条例》）标准，保护用户的数据安全性。

实际上，微软语音评测不是一个具体的产品，而是基于Azure云构建的一种能力。即以微软Azure为平台，将微软在人工智能领域30年的研究成果，开放API给合作伙伴、独立软件开发商、系统集成商，为他们提供认知服务之上的能力，从而进一步做出适合各自领域的方案。

“可以打一个比方，如果微软云是平台的话，认知服务就是这个平台上提供给用户智能的部分。就好像一个人有眼睛、耳朵、头脑，认知服务就是赋予想要在微软Azure云上获取这些能力的用户，给他们提供扩展能力”，丁秉公说道。

“所谓授之以鱼不如授之以渔，我们提供这样的能力或者工具之后，便于合作伙伴基于垂直领域里丰富的场景定制或开发相应的解决方案以及产品，他们可以直接调取这样的能力，而不需要从头做任何人工智能方面的研究。”

据了解，目前，微软语音评测的API有丰富的接口和参数，支持高实时率多并发调用。如果第三方想调用API，在前期评测环节是免费的，而进入集成开发阶段，会根据标准的Speech-To-Text（语音转文本）服务的价格，按照评测音频的时长来计费。

另外，丁秉公还提到，微软Azure内部有独立的Microsoft Education团队，专门针对教育领域提供不同的解决方案。除了语音评测外，Azure云在教育领域还有很多已落地的应用。

例如，疫情期间的“停课不停学”，让微软远程协作平台Microsoft Teams被学生用来作为远程学习的工具，在教育领域被广泛使用。

其次，在个性化教育方面，语音评测作为Azure上的服务，提供了个性化的打分能力，使在平台上使用这个功能的用户享受到属于他自己的独特服务。

第三，Azure的语音技术可以帮助合成AI老师，帮助教育机构生成课件，解决教育资源稀缺的问题。

除此之外，语音技术还可以帮助一些视障和听障学生更好地学习。

马莉莎认为，当前全球的教育行业都在进行数字化转型，疫情的到来加速了教育行业的数字化和线上化。通过让AI和云计算进一步赋能教育行业，可以为学生提供多元化个性化的服务，打造一个更加智能的生态环境。

微软在智能语音技术方面深耕多年，曾推出过多款耳熟能详的语音产品，如微软小娜（Cortana）、微软小冰、Skype等，此次上线语音评测功能也是“顺水推舟”之举。语音评测市场，BAT和科大讯飞等科技巨头争相布局，微软这匹“黑马”的加入，势必会让语音评测战场的厮杀更为激烈。

往期推荐

▎攒出一个AIoT帝国▎247亿！国家电网最先发力，能源新基建火了，BAT华为抢着入局▎直击CPU、GPU弱项！第三类AI处理器IPU正在崛起▎黄峥身家超马云：财富高达3200亿；罗永浩准备做脱口秀；甲骨文泄露数十亿条数据

上一篇：网站线下推广方法有哪些(实测效果最好的3种方法)

下一篇：广告分发平台有哪些(最热门的7个广告平台)

数码科技
criticalsection函数怎么使用(critical的用法归纳)
背景阅读开源代码的时候，非常多的场合会看到EnterCriticalSection和LeaveCriticalSection成对的出现，它们是代表什么意思呢，为啥见到Enter就一定会有leave成对。...
编辑：昊阳
发布时间：2022-08-06 11:34:03
数码科技
小米55寸电视多少钱(小米55英寸电视报价及图片大全)
手机和平板电脑都可以看影视剧，但是各家各户几乎仍然会购买一台电视，因为电视直到现在依然有它不可替代的意义，观影体验也真的要比手机和平板好多了，虽然手机和平板电脑能看影视剧，但是其屏幕比较小，更适合个人观看，想要和亲戚朋友一起观看最好还是选择电视，而且一家人一起看电视也比各自拿着手机玩好，一起看电视才有家的感觉。...
编辑：昊阳
发布时间：2022-06-29 19:32:59
数码科技
软件加密文件如何解密(企业加密软件排行榜)
互联网在方便企业日常工作的同时，也带来了一些不安全的因素，特别是对于一些大公司和一些机密文件在网络上的传输，而且数据泄密的方式多种多样，所以为了有效保护电脑数据安全，我们就需要给文件加密，比如通过域之盾电脑加密软件来对员工电脑进行保护。...
编辑：昊阳
发布时间：2022-06-20 05:55:12
数码科技
webcheck是什么程序(webcheck可疑项目处理方法)
即可免费订阅...
编辑：昊阳
发布时间：2022-08-09 02:29:41
数码科技
饿了么成被执行人了吗(成为被执行人后果会怎么样)
复工以来，办公室里讨论最多的就是吃什么。民以食为天，但是对于选择困难症的人来说，每到中午都要挣扎一番。心灵手巧的人已经带了丰盛的爱心便当，“懂得节约时间的人”默默打开了外卖软件。...
编辑：昊阳
发布时间：2022-05-01 18:19:52
数码科技
三大运营商哪个好(国内第四大运营商)
中国三大通讯:中国移动、中国联通、中国电信，谁最具优势？...
编辑：昊阳
发布时间：2022-12-27 03:51:58
数码科技
虚拟光驱daemon运行(U盘虚拟光驱软件安装方法)
随着计算机技术的不断提高，U盘安装系统的方法已经完全替代了传统的光盘安装，利用U盘启动盘制作工具制作启动U盘，对于许多电脑爱好者来说并不陌生，像《大白菜》、《老毛桃》、《U大师》等等，这些工具制作的U盘有一个共同的特点，就是里面默认的一键安装工具，对于我们这些非专业电脑爱好者来说，它方便、简单、快捷，但是这些工具有个共同的弊端，就是插入了非系统自带的第三方软件。其实，这些U盘工具完全可以实现无插件纯净安装。这里给大家介绍U盘安装的另一个...
编辑：昊阳
发布时间：2022-06-29 23:27:04
数码科技
lumia1320刷安卓教程(诺基亚lumia系列大全)
2011年2月诺基亚宣布选择微软的Windows Phone作为自己的智能手机操作系统，当时科技界对于这个消息还是挺惊讶的，然而诺基亚不得不作出放弃塞班的选择，因为Android和iOS已经让曾经风光无限的塞班显得有些过时了，而MeeGo前景也并不被看好。...
编辑：昊阳
发布时间：2022-06-22 17:02:51
数码科技
qq冻结了怎么办不能人脸识别(qq账号被冻结人脸识别不出来)
在7月15日中午，微博上有大量用户反馈了自己的腾讯QQ号突然被冻结了，根本无法登录，在登录的过程中显示该账号涉嫌业务违规操作(如批量登录等)被暂时冻结，请前往安全中心查询或进行资金管理。...
编辑：昊阳
发布时间：2022-05-03 01:08:00
数码科技
csgo自动连跳指令怎么使用(csgo官方暴力锁头代码)
本篇文章为大家推荐2个实用脚本，分别是一键大跳、一键买枪，一键大跳只要一按就可以跳上去平时跳不上的大箱子，更容易在僵尸模式存活，而一键买枪脚本则可以快速购买需要的武器和手雷。...
编辑：昊阳
发布时间：2022-06-19 20:02:14

发表评论

登录后才能评论

语音评测打分软件(语音评测的原理)

相关推荐

发表评论