智能语音交互技术是指通过语音识别、语音合成和自然语言理解等技术,实现人与机器之间自然语言的交流和互动。随着现代人工智能在各行业的普及,智能语音交互技术也越来越多的在日常工作、生活中应用,智能语音交互的出现不仅仅大量节省了人工的工作时间提高了工作效率,为人们工作生活带来便利的同时,也改变着人类学习、生活、娱乐、工作和出行的方式。
在众多的智能语音交互使用场景中,人机自然对话是智能语音交互技术最为普遍的场景之一。智能语音交互技术首先将人的语音信号转化为机器能够理解和处理的文本信息,然后通过深度学习和自然语言处理技术识别出人类的意图和情感,并根据对话模型输出对应的文本信息,再将由机器生成的文本信息转化为自然流畅的语音音频进行播报,从而解决人们的提出的问题。在实际的应用案例中,我们以标贝科技经手的某企业可视化门铃实现人机自然对话的案例为分析对象,标贝科技为大家一起解读智能语音交互技术如何助力设备实现人机自然对话的过程。
首先需求企业的企业背景介绍:需求方公司是一家日本生产影像与信息产品的综合性公司,在全球拥有200家子公司,企主要产品包括照相机及镜头、数码相机、打印机、复印机、传真机、扫描仪、广播设备、医疗器材及半导体生产设备等,在全球拥有较高的知名度。
其次,在解决用户问题前,我们需要了解客户的需求场景:
需求场景一:为提高企业内部沟通效率,企业需要对企业内部使用的可视化门铃增加智能语音交互功能;
需求场景二:为提升员工工作体验,需要可视化门铃语音播报的音色尽可能还原真人音色;
需求场景三:现有设备不能准确朗读企业内各型号设备的复杂参数,需要提升其设备的识别准确率。
此外,在了解用户使用场景后,我们需要了解企业现有产品在人机对话中存在需要解决的问题/痛点。
问题一:现有设备的语音合成系统阅读准确率较低,经常读错专业术语和产品型号,信息传递出现错误,导致沟通效率低,严重影响了工作效率和员工使用体验。
问题二:设备合成音色无感情色彩、机械化。现有可视化门铃语音播报是标准机械音,缺乏情感表达,导致员工使用体验差。
针对客户的场景需求和使用痛点,标贝提供以下解决方案和产品来解决用户产品在使用过程中存在的问题/痛点。
针对语音合成系统阅读准确率低的问题:对该企业提供的专业术语文本(包含数字、符号等)对原有的语言模型进行优化,将语音合成系统的阅读准确率提升至百分百。
针对音色无感情色彩、机械化的问题:标贝科技为该企业提供筛选专业化的声优音色,并提供专业录音棚,通过采集和标注音色库为客户量身打造专属音色。为了使音色播报更加自然,标贝科技综合利用声学和语言学参数,使用算法使音色更加真实饱满音质,播报时声音抑扬顿挫、富有表现力,
最后,为了使该企业员工使用更加方便,采用了集成嵌入式版本,这样即使在离线情况下,设备仍可实现人机自然对话的能力。
该企业的设备实现人机交互工期共3个月,在该产品交付并使用一段时间后,内部使用反馈如下:
语音合成系统准确率达到百分之百,使得内部沟通效率得到明显提升,节省了员工的大量沟通时间,大大的提升了员工的沟通效率。
定制的语音播报音色接近自然人声,亲切自然,减少了陌生感,播报准确,进一步提高了信息传达的质量。
定制的TTS系统成功集成到客户的嵌入式设备中,并持续收集用户反馈,使音色和朗读功能得到不断优化。