当前位置: 领跑汽车在线 > 焦点 > 正文

打破语音边界,大模型泛化语音语料资源平台的创新之路

环球汽车网   子墨   2024-03-22 12:31   阅读量:5339   

万物互联的时代浪潮下,智能语音以其直观、高效、自然的交互优势,已成为人机交互的关键入口和影响用户交互体验最直接的因素。然而,如何优化产品语音交互性能,减少唤不醒、误唤醒、听不懂等问题的发生率,持续提升用户交互体验,成为当前智能产品创新的重点之一。

为了持续优化产品的交互效果,企业通常会开展大量的测试工作。在此过程中,语音语料资源扮演着至关重要的角色。然而,现阶段对于大部分企业来说,获取高质量、高覆盖度的语音语料资源仍面临着成本高、质量参差不齐、场景语料泛化能力弱以及资源调用复杂等挑战。因此,行业亟需一个高效、灵活且可拓展的语音语料资源管理平台,以支撑智能语音技术发展,甚至推动行业整体技术创新。

面向行业发展迫切需求,国家智能语音创新中心针对性开展了语音语料资源技术攻关。从数据生成、存储到管理,平台整合了人工智能通用大模型的多种能力,通过声音复刻、文本生成泛化、语音合成、语料资源管理等核心技术加持,创新性地构建了一站式、全流程的大模型泛化语音语料资源平台,实现了高质量、高适应性场景语料资源批量生成,功能强大。

声音复刻:平台可以根据上传的音频或实时录制音频进行声音复刻,通过少量的音频文件,即可训练出个性化发音人,形成个性化发音人模板库。

文本泛化:平台接入通用大模型,在语料泛化技术与大模型生成技术的双重加持下,高效实现所需场景的文本语料的生成与泛化。根据语料逻辑、对话逻辑、使用场景等相关需求,平台可一次性输出至少25条联想泛化结果。

语音合成:平台支持文本语料与发音个性化组合,可以批量合成语音语料资源,还可以对合成后的音频文件进行音量、音调、语速等方面进行调节。

语音及语料资源管理:对于用户生成或上传的语音语料资源,平台可进行统一化、标签化管理,利用集成工具即可实现语料获取与分配,大幅节省语料获取时间。

同时,平台还可以进行用户管理、数据统计及分析,在帮助企业管理资源、优化业务流程以及提升测试效率等方面具有诸多优势。

更灵活:实时语料定制,可快速定制生成测试用数据,提升开发速度与灵活性。

更高效:集成化资源管理,简化资源获取与分配工作,大幅度节省时间成本。

更准确:通过先进的算法,丰富语料多样性,提升语料质量,进一步保障测试全面性与准确性。

更便捷:平台配置API接口,可支持跨系统功能集成,程序间资源调用更简单。

更兼容:支持跨行业应用,可覆盖家电、汽车、金融等多行业特定测试需求,覆盖率更广,延伸度更高,兼容性更强。

大模型泛化语音语料平台以其高效生成高质量、高覆盖度场景语音语料,以及其他综合功能优势,将进一步助力提升人工智能产品的语音识别准确度和交互效率,从而帮助企业提升核心竞争力。

当前,大模型泛化语料平台已在智能家电领域实现落地验证,为智能家电产品测试与调优提供定制化语音语料解决方案。未来,中心将持续优化平台性能,接入更多模型与能力,为更多领域、更多产品提供更优质、更全面的语料资源服务,为行业整体技术创新发展增添助益。

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

最新资讯
  • 试驾2022款长安逸动PLUS试驾2022款长安逸动PLU
  • 首款搭载CTB技术的e平台3.0车型海豹开启预售,预售价格21.28万元起首款搭载CTB技术的e平台3
  • 特斯拉第三大个人股东呼吁回购150亿美元股票特斯拉第三大个人股东呼吁回购
  • 斯柯达与Etnetera成立合资企业,专攻电动汽车软件领域斯柯达与Etnetera成立
  • 阻击奥密克戎 天津开启全员核酸检测阻击奥密克戎 天津开启全员核
  • AITO问界M5发布15天后我们知道了它的成功密码AITO问界M5发布15天后