NLU的作用是理解用户想要表达的内容,在语音机器人场景下,用户输入流式语音数据,经过VAD和ASR后得到翻译后的文本内容。内容识别用户的意图,提取表示信息量的槽,并充当对话管理器做出策略选择的用户操作。包括声音类型识别、单句意图识别、标准问题匹配和识别,下面一起来了解一下智能语音机器人能提供的功能有哪些?
(1)语音类型识别
在电话场景中,受用户口音、环境和通话线路的影响。语音质量不是很高,导致语音识别不准确,意图识别带来,巨大的挑战。声音类型识别就是将以上四种类型与正常对话语音区分开来,使单句意图只作用于正常语音的输入,从而减少语音识别不准确的影响。声音类型识别模型采用基于模型,使用训练模型。目前通过调整阈值,听不见类别的准确率比较高。
(2)标准问题匹配
在实际交互过程中,用户通常会问一些词汇之外的问题,根据不同业务总结出一些有代表性的标准题。在配置会话时,需要根据业务场景自定义这些标准问题的答案。当收到用户的回复时,会首先匹配这些标准问题。当命中一个标准问题时,会返回相应的回复,并执行回拉策略切换到上一个主题。上述过程是标准问题匹配,每个词汇都有一套独立的标准问题。由于其独立性和可变性,使用基于DSSM的模型来实现通用语义匹配。
总而言之,智能语音机器人能提供的功能有语音类型识别和标准问题匹配,与通话行为相关的意图识别,这些标签的含义不随词的变化而变化,根据这样的标签可以判断用户当前回复的大致意思,可以直接回复大体意图,而对于包含一定信息量的意图,根据配置实现简单的跳转。