智能语音交互_实时语音识别_自然语言处理_录音文件识别-摩杜云

智能语音交互

摩杜云智能语音交互提供语音识别、语音合成、自然语言理解等基础技术，实现“能听、会说、懂你”式的智能人机交互体验，应用于智能客服、智能质检、庭审实时记录、实时演讲字幕、访谈录音转写等场景。

产品优势

定制识别及发音

语音识别可提供所需场景的音频及标注文件，定制专属识别模型，进一步提升识别准确率。语音合成支持定制各种类型的男/女/童声，或学习说话人声音，可用于客服、阅读、虚拟人等场景
易接入

管控台可视化进行项目、场景、功能配置及自学习并提供API和多种SDK，接入成本极低
识别准

数年持续提升准确率，与淘宝、菜鸟、高德使用一套服务
处理快

低时延、秒级处理返回语音识别或合成结果

产品规格

入门级企业级

录音文件识别录音文件极速版一句话识别实时语音识别

hot

录音文件识别·资源包

对完整音频文件进行识别，上传完成6小时内返回识别结果文本。

适用场景:

>呼叫中心语音质检、庭审数据录入、会议记录总结

>医院病历录入、语音记事本转写、课程纪要

优势1

端到端框架下的精准识别

优势2

自学习平台定制专属模型

优势3

简单，易上手
- 类型录音文件识别
- 规格 1000小时
- 购买时长 1年
￥1200.00起
立即选配

语音合成长文本语音合成

hot

语音合成·资源包

一次最多提交300字以内文本，转换成自然流畅的语音，目前有多种音色可供选择，并提供调节语速、语调、音量等功能。（注：计费100字及以内/次，即一次提交300字视为三次调用）

适用场景:

>智能客服电话外呼通知、任务播报、智能配音

>覆盖家居、车载、金融等11个行业领域词库，词汇发音准确。合成音真实饱满、抑扬顿挫、富有表现力

优势1

中英混合场景发音

优势2

字级别音素边界
- 资源包类型语音合成
- 流量包规格 1000千次
- 购买时长 1年
￥1800.00起
立即选配

hot

长文本语音合成·资源包

能将用户提交的10万字以内文本转换成自然流畅的语音，目前有多种音色可供选择，并提供调节语速、语调、音量等功能。

适用场景:

>文学阅读、儿童伴读、新闻播报

>智能配音、虚拟人

优势1

5万字最快仅需10分钟

优势2

合成文件可循环使用

优势3

场景专属精品声音
- 资源包类型长文本语音合成
- 流量包规格 100万字
- 购买时长 1年
￥220.00起
立即选配

相关产品

录音文件识别

提交录音文件识别请求后，商业用户的转写任务可在6小时之内完成识别并返回识别文本，最新发布极速版支持30分钟以内时长的音频转写完成时间不超过10秒。

实时语音识别

对不限时长的音频流做实时识别，达到“边说边出文字”的效果，内置智能断句，可提供每句话开始结束时间。

一句话识别

对时长较短（一分钟以内）的语音进行识别，适用于较短的语音交互场景，如语音搜索、语音指令、语音短消息等。

语音合成

能将用户提交的文本转换成自然流畅的语音，目前有多种音色可供选择，并提供调节语速、语调、音量等功能。

语音合成声音定制

为企业提供深度定制TTS声音的能力。通过深度学习技术，用更少的数据量，更快速高效地为客户定制个性化语音合成声音。

语音本地化部署方案

支持语音识别、语音合成、语言模型自学习工具的本地化部署，帮助企业在自己的数据中心使用与摩杜云公共云同款的智能语音服务。

智能语音设备端解决方案

针对类似故事机、音箱等各种语音交互设备，提供包括音频信号处理，打断唤醒，语音识别，语音合成等全链路语音交互能力。...

语言模型自学习工具

自行上传数据，对摩杜云的语音技术进行深度定制，从而提升特定业务领域的识别准确度。目前仅支持上传文本数据对语言模型进行定制。

便携智能语音一体机

便携智能一体机由达摩院结合应用场景现有问题和用户实际需求，由智能语音识别技术+智能采集阵列硬件+音频处理算法组成。

应用场景

法庭庭审转写智能客服质检实时直播字幕及管理业务电话内容分析智能语音问询终端小说新闻内容阅读互联网娱乐解决方案

法庭庭审转写: 传统法庭庭审内容通过书记员进行过程记录，记录内容会带有书记员的理解和归纳。记录过程有可能影响法庭进程，降低庭审效率。

能够解决

通过智能语音识别技术，实时转写庭审内容；

完整、准确还原庭审过程；

提高庭审效率及记录客观性。

推荐产品: 实时语音识别

一句话识别

智能客服质检: 大量电话服务，仅靠质检人员抽检，无法有效全量覆盖有问题的服务；且质检过程要完整听取录音，效率低下。电话坐席出现严重违规或服务风险也无法及时干预处理，造成客户及公司的损失。

能够解决

通过智能语音识别，完成电话坐席的全量、实时质检；

避服务风险及服务违规，保证服务质量。

推荐产品: 实时语音识别

实时直播字幕及管理: 用户在公共交通或公共场合看直播，无法打开音量，观看不过瘾。直播主播发生语言违规，造成不良舆情。主播流量、用户时长不稳定，内容运营缺少抓手。

能够解决

字幕方便用户无法收听音频时正常观看视频内容；

实时内容管理，避免主播违规为平台带来风险，造成不良社会影响。

推荐产品: 实时语音识别

业务电话内容分析: 传统中介业务中容易出现客户双方建立联系后抛弃中介的事情，如房东诱导房客进行线下交易，从而导致中介公司经济损失。这类行为往往发生在双方沟通的电话中。

能够解决

通过摩杜云语音识别服务，可以帮助中介及时的发现上述问题；

从而阻止逃单行为，避免经济损失。

推荐产品: 实时语音识别

一句话识别

智能语音问询终端: 公共服务设施（如，地铁售票），需要为残障人士等无法直接操作机器设备的用户提供语音交互，正常享用公共服务。

能够解决

在嘈杂的公共环境中，为用户提供多模态语音交互方式；

给用户带来舒适体验的同时提高了商家的服务效率、为商家节约人工服务成本。

推荐产品: 一句话识别

小说新闻内容阅读: 小说新闻等长篇文字形式的信息，根据不同场景和用户习惯需要转化成音频形式的播报。

能够解决

地铁、开车、散步、吃饭等生活场景下，可以将需要阅读的内容转化为贴近场景的声音，解放“低头族”。

推荐产品: 语音合成

互联网娱乐解决方案: 移动互联网下沉及用户年龄段拉大，需要丰富的交互形式满足不同特征用户的使用需求。

能够解决

驱动互联网娱乐领域的业务创新，帮助客户在激烈的竞争环境中获取优势。

推荐产品: 一句话识别

文档与工具

快速开始

欢迎开启智能语音交互之旅
产品介绍

查看实时语音识别所有相关文档
开发文档

了解丰富的智能语音交互 OpenAPI
相关协议

智能语音交互服务等级协议

7X24小时服务
7天内无理由退款
0元免费备案
优化反馈建议
专业服务流程

版权所有 © 广州摩杜云信息科技有限公司 2021 保留一切权利联系地址：广州市荔湾区黄沙大道粤南大街26-29号在线联系：4008-521-721按1

增值电信业务经营许可证：B1.B2-20203763

粤公网安备 44010302000824号粤ICP备19121779号