在车载语音的技能制作中,最重要的就是语音交互(voice interactive )模型了,语音交互就是将人的语言转换成应用的action(面向系统的动作)的模式,也就是VUI(Voice UI),我们之前谈论手机APP的UI更多意义上是GUI(Graphic UI),而要做好VUI的交互和GUI一样,都对于细节提出了更多更高的要求。
在互联网汽车车载大屏技能制作中,语音交互模式是最重要的一个环境,语音交互是将人的语言转换成应用action的模型中,也就是VUI,在手机的UI更多语义上是GUI,而要做好VUI的交互难度上细节上的要求更高。
亚马逊的VUI设计师Amdrew ku就说过:“人类对于声音的敏感是超出很多人的想象的。”
在制作技能中,首先要明确的就是你的技能能做什么,然后根据这个点来预测用户可能的表述,再把相关的表述对应到意图(intent)。
原则上,用户的表述可以分为三类:完整的意图、不完整的意图和无意图。
当用户明确表达了完整意图的时候就应该去完成意图相应的任务,比如:
用户:“现在几点了”
车载语音:“现在是晚上9点41分”
在这个对话(session)中,意图是完全明确的,所以只要执行意图回复信息即可。而遇到用户的意图是完整的,就需要去引导用户补充,比如:
用户:“我想查一下明晚的航班”
车载语音:“请问你想查去什么地方的航班?”
另外,当用户的表述超出模型的时候,还要提供必要的帮助,比如:
用户:“这个游戏我不会玩”
车载语音:“在本游戏中你可以与好友进行成语接龙,只需要对我说一个你想到的成语。”
只有区分了不同的意图,车载语音才能有区分的进行反馈,把用户“引到”使用路径上来。在区分意图之后,设计者还应该注意在设计语音交互模型时的一些基本原则,这些原则基本来源于语音交互平台上对于skill制作的经验,也包括一些国内AI平台在这方面的总结,如下:
原则一:让用户明白他是不是需要回答,如需要回答,最好使用疑问句。
【正确示例】
车载语音:有三个车,红车、黄车、绿车,你要选哪个?
【反面示例】
车载语音:你可以从下面的三个选项中选一个,分别是红车、黄车、绿车。
原则二:不要假定用户知道该怎么做,要引导用户。
【正确示例】
欢迎进入XX打车,你可以尝试对我说“打个出租车”。
【反面示例】
车载语音:欢迎进入XX打车。
原则三:向用户提问时,不要模棱两可。
【正面示例】
车载语音:你要沙拉还是汉堡?
用户:汉堡
【反面示例】 车载语音:还要再来点沙拉或者汉堡吗?
用户:…….
原则四:简洁明了
用户:我的星座运势如何?
【正面示例】
车载语音:你的星座是什么
【反面示例】 车载语音:有12个星座可以选择,分别是双子座、金牛座….你要选哪个?
原则五:不要给用户太多选择(最好不要超过三个)
用户:我想喝点奶昔。
【正面示例】
车载语音:巧克力口味,草莓口味,香草口味,你要选哪个?
【反面示例】 车载语音:巧克力口味,草莓口味,香草口味,可可口味,抹茶口味,你要选哪个?
原则六:复杂的技能(skill)多提供帮助指引。
一个技能(skill)能超过满足三个需求就算很复杂了,如果是相对独立的功能最好拆分成三个技能。如果用户在技能使用流程中卡住,就需要帮助了,通常的做法是把功能列表读给他,让他知道技能可以做什么。
原则七:不问没必要的问题
用户:打开可可笑话
【正面示例】
车载语音:一条警犬看到马路上过来一条普通狗,就气势汹汹地跑去质问它:我是警犬,你是什么东西?普通狗不屑一顾地看看它说:蠢货,看清楚点,老子是便衣。
【反面示例】 车载语音:你想听笑话吗?
原则八:必要时和用户再次确认
当用户的命令涉及到某些方面的操作,应该通过语音进行二次确认。
比如:用户公开的动作(分享到社交网络)、影响他人的命令(给别人发信息)和钱相关的操作(下单)。
原则九:让用户明白他的状态、目前在技能流程中的位置。
【正面示例】
车载语音:你成功订了咖啡,下次再见。
【反面示例】 车载语音:你成功的订了咖啡。
原则十:选项太多的时候需要分几部分播报。
用户:附近有什么电影院吗?
【正面示例】
车载语音:最近的是XXX电影院,在山东路,还要听其他较近的影院信息吗?
【反面示例】 车载语音:最近的是XXX电影院,在山东路,第二近的XXXX电影院在YYYY路,第三近的是…..
原则十一:TTS要口语化。
【正面示例】
车载语音:北京国安战胜了上海申花,比分是2比1。
【反面示例】 车载语音:北京国安2:1上海申花
原则十二:用户卡住的时候可以退出。
用户:XX打车有什么功能?
【正面示例】
车载语音:用XX打车1 XXX 2 XXX 3 XXXX 如果想退出的话可以说“结束”
【正面示例】 车载语音:用XX打车1 XXX 2 XXX 3 XXXX
利用这些原则规范化设计后的技能更容易被用户了解和使用和喜爱。
当然这些原则还应该根据技能和AI平台的场景、风格进行调整,只有技能可以进行良好的交互,技能才能更快更好的服务用户。