当前市场上智能客服及其NLP领域,闲聊模块是其非常重要的研究领域。目前业界针对于闲聊模块的方案一般以下三个方案
一、基于固定模板
我们都知道业务问答通用方案是基于模板式问答,同理模板式问答也适用于闲聊系统,这种方式的优势在于易于控制,用少量的模板满足多种问题需求,劣势在于出现答非所问的概率比较大
二、基于语料库
这种做法是先收集-整理一批闲聊库,一般情况是一个意图对于一个标准问题及相应问题的泛化,针对问题有多个答案,形成类似一问多答的效果,这种做法的优势在于回答内容是可控,不会出现意料之外的答案,目前市场上闲聊语料库作法是比较广泛,如针对于金融保险行业做的比较好的竹间机器人、平安等,针对儿童领域做的比较好北京光年的图灵机器人、狗尾草的公子小白等都是使用这种方式,劣势在于回答的内容非常有限,毕竟都是在设计的语料库内的答案。
三、基于生成式
生成式一直都是NLP领域研究的前沿方向,早期的微软小冰及各大研究院推出的闲聊系统都是生成式的,生成式对话系统的优势在于基于有限的语料,通过深度学习/神经网络可以获得额外的答案,从而实现无中生有的效果,劣势在于回答的内容不可控,谁都无法预估到会出现什么样的答案,目前该种方式只能使用研究及部分真正的“闲聊”中,无法使用到企业业务中,毕竟没人能真正控制的了回答的是什么内容,假如出现性别,种族歧视呐?
总结,这三种方式各有各的优势,在我们实际使用中,需要根据业务需求采取相应的设施,以下是三种方案的对比
- 回答内容可控性:基于语料库 > 基于固定模板> 基于生成式
- 回答内容丰富度:基于生成式 > 基于固定模板 > 基于语料库
- 回答内容的可靠度性:基于语料库 > 基于固定模板> 基于生成式
目前企业生产的使用度来看,大多数企业采用的是语料库+模板两种方案结合一起,既能达到内容的可控性,又能在一定程度上满足丰富度。