作者:Steve Young, Fellow, IEEE, Milica Gasiˇ c,´ Member, IEEE, Blaise Thomson, Member, IEEE,and Jason D Williams, Member, IEEE

Abstract

统计对话管理系统是一种数据驱动的方法,无需人工构建对话管理机制,具有较好的鲁棒性。部分可观察的马尔可夫决策过程(POMDPs)具有良好的数据驱动性,但问题是完整的建模和优化计算代价巨大,甚至不可实现。在实际过程中,需对 POMDP-based 的系统近似优化求解,以下内容将对 POMDP-based 的系统的领域现状做一个综合介绍。

1. Introduction

传统的 SDS 的主要组成部分如下图所示。口语理解模块(SLU)将语言转换成抽象语义表示,即用户对话行为 𝑢𝑡,而后系统更新其内部状态 𝑠𝑡,然后系统通过决策规则 𝑎𝑡 = 𝜋(𝑠𝑡)确定系统行为,最后语言生成模块(NLG)将系统行为 𝑎𝑡 转化为自然语言字符串。其中,状态变量 𝑠𝑡 包含跟踪对话过程的变量,以及表示用户需求的属性值(又称为 slots)。在传统对话系统中,决策规则是通过流程图的方式实现的,图中的结点表示状态和行为,而边则表示用户输入。

新型的对话管理系统基于部分可观察的马尔可夫决策过程(POMDPs),该方法假定对话过程是马尔可夫决策过程,也就是说,对话初始状态是 𝑠0, 每一个后续状态用转移概率来表示:𝑝(𝑠𝑡 |𝑠𝑡−1, 𝑎𝑡−1)。状态变量 𝑠𝑡 是无法直接观察到的,它代表了对用户需求理解的不确定程度。系统把 SLU 的输出看作是一个带噪音的基于用户输入的观察值,这个观察值的概率为 𝑝(𝑜𝑡 |𝑠𝑡),这里的转移概率和生成概率用恰当的随机统计模型表示,又称为对话模型 M,而每个步骤中采取哪个行动则由另一个随机模型控制,该模型称之为对话策略 P。 在对话过程中,每一步还需要一个回报函数来体现理想中的对话系统特性。对话模型 M 和对话策略 P 的优化是通过最大化回报函数的期望来实现的,该过程可以通过直接用户交互在线训练,也可以利用离线的语料库训练。详见下图。

然而在实践中运用 POMDP 并不容易,有许多实际问题需要解决。SDS 的状态行为空间巨大,求解这个空间需要复杂的算法和软件。实时的贝叶斯推理也非常难,完整的 POMDP 的学习策略是不可实现的,因此必须利用近似法求解。优化基于 POMDP 的 SDS 的最直接方式是通过直接用户对话。但是,通常难以找到足够数量的用户帮助训练系统,所以实践中常常通过用户模仿器的方式来对参数模型进行优化。

2. PARTIALLY OBSERVABLE MARKOV DECISION PROCESSES

部分可观察的马尔可夫决策过程用一个多元组(S, A, T, R, O, Z, 𝛾, 𝑏0)表示,其中 S 是状态集;A 是行为集合;T 表示转移概率 𝑃(𝑠𝑡 |𝑠𝑡−1, 𝑎𝑡−1); R 是回报的期望值;O 是观测值集合;Z 代表观测概率 𝑃(𝑜𝑡 |𝑠𝑡 , 𝑎𝑡−1 ); 𝛾 是几何衰减系数,其值在 0-1 之间;𝑏0 是置信状态的初始值。

POMDP 的过程如下:在每一个过程中,真实世界是一个无法观察的状态 𝑠𝑡。因为 𝑠𝑡 是未知的,变量置信状态 𝑏𝑡 表示所有可能状态的分布,𝑏𝑡(𝑠𝑡)表示处在某个特定状态 𝑠𝑡 的概率。系统基于 𝑏𝑡 选择行为 𝑎𝑡,得到一个激励值 𝑟𝑡,然后转化到状态 𝑠𝑡+1,这里 𝑠𝑡+1 仅仅依赖于 𝑠𝑡 和 𝑎𝑡。然后系统得到一个观察值 𝑜𝑡+1,该值依赖于 𝑠𝑡+1 和 𝑎𝑡。这个过程如图所示

但问题是通用的 POMDP 方法复杂度高,难以大规模的应用到实用对话系统。即使中小型规模,其涉及的状态、行为、和观察值很容易达到 1010 量级。穷举 𝑃(𝑠𝑡+1|𝑠𝑡 , 𝑎𝑡)是不可实现的,因此,直接优化更新置信状态优化回报函数并不可行。通常情况下,我们需要简化模型近似求解。接下来我们将详细讨论。

3. BELIEF STATE REPRESENTATION AND MONITORING

本小节集中讨论图 2 中对话系统模型 M。实用 SDS 中,状态必须包含三种不同类型的信息:用户的目标 𝑔𝑡 , 用户的真实意图 𝑢𝑡,以及对话历史 ℎ𝑡。用户目标包含需要完成任务所有信息,用户真实意图是指用户实际想表达的意图而非系统识别出的意图,对话历史跟踪之前的对话流。由此,对话中的一个状态包含三个因子:st = (gt, ut, ht)

引入条件独立性假设以后,该过程可以表示为下图。将状态分解成以上三个因子可以对状态转移矩阵进行降维,同时也减少了系统的条件依赖性。

虽然状态因子模型极大的简化了 POMDP 模型的复杂度,但是它仍旧复杂,难以在实际的系统中应用。因此还需要进一步近似化处理,通常有两种常用技术:

  1. N-best 方法,包括剪枝和重组
  2. 贝叶斯网络法

4. POLICY REPRESENTATION AND REINFORCEMENT LEARNING

策略模型 P 提供了置信状态 b 和系统行为 a 的映射。我们的目标是寻找一个最优的策略最大化对话回报函数的综合期望。

有五种常用的方法来优化策略:

  1. planning under uncertainty
  2. value iteration
  3. Monte-Carlo 优化
  4. 最小平方策略迭代(LSPI)
  5. natural actor-critic (NAC).

这五种方式常常应用在 end-to-end 的对话系统中。除此之外,还有 Q-learning 和 SARSA 等方法。

没看懂,摆烂了

5. USER SIMULATORS

直接从语料库中学习对话策略存在很多问题,比如收集数据中的状态空间可能与策略优化数据不同。另外,这种方式无法在线互动学习。因此我们可以构建一个用户模拟器,让这个模拟器与对话系统直接进行互动。用户模拟器不仅仅可以用来学习对话系统,也可以用它来评估对话系统。

6. DIALOGUE MODEL PARAMETER OPTIMISATION

在 POMDP 中,对话系统的完整模型由两组参数组成:具有参数 τ 的对话模型 M,其中包括用户、观察和转移概率分布;以及具有参数 θ 的策略模型 P。大多数当前的 POMDP 开发都集中在策略优化和 θ 参数上,而对话模型和 τ 参数则经常是手工制作的。虽然手工制作对话模型可能看起来不太令人满意,但在许多情况下,对话设计师将对参数应该在哪里具有强烈先验知识。例如,在许多应用程序中,假定用户目标在整个对话过程中保持不变是合理的。

因此,在 POMDP 中,需要优化两组参数:对话模型 M 中的 τ 参数和策略模型 P 中的 θ 参数。尽管大多数研究都集中在策略优化上,但手工制作对话模型仍然是一种常见且有效的方法,并且可以根据应用程序和领域特定知识进行调整。

7. FAST TRAINING AND USER ADAPTATION

在 POMDP 中,对于一个真实世界的口语对话系统,策略优化需要进行 O(10^5)个训练对话,这个数量太大了,无法直接与人类用户进行交互。因此,目前的策略优化依赖于与用户模拟器的交互。这些模拟器需要高度复杂,并且不容易构建。此外,使用模拟用户训练出来的策略会偏向于这些模型所包含的特定行为。

因此,在 POMDP 中,快速训练和用户适应是非常重要的问题。目前有一些方法可以加速策略优化过程,并且可以通过在线学习算法来实现与真实用户的交互。例如,在线学习算法可以使用增量式方法来更新策略,并根据代理与真实用户交互时获得的奖励信号进行调整。

8. SYSTEMS AND APPLICATIONS

前面的几个小节讲述了统计对话系统的几个主要模块,其相关的技术在随着时间进步完善。尽管在商业上推广这些技术有一定的难度,但是在具体的场景中已有一定范围应用。这里我们简单的提几个基于 POMDP 框架的对话系统。

这些系统大多都是非正式的 inquiry 系统,包括语音呼叫(Janarthanam et al., 2011),旅游信息(Thomson & Yong, 2010),日程安排(Kim & Lee, 2007)和汽车导航(Kim et al., 2008)等。POMDP 也可应用于基于命令控制的系统,如通过多模接口控制家电(Williams, 2007)。

POMDP 曾在 CMU 举办的“Let’s Go”竞赛任务中被应用,其为 Pittsburgh 区域的居民播报非忙时段的公交车信息(Thomson et al., 2010)。在该应用中,用户可能从多种不同的手机装置来电,且通话环境通常有噪音,结果显示,基于 POMDP 的系统明显优于传统系统(Black et al., 2011)。

没啥用,搬一下原文

9. EVALUATION AND PERFORMANCE

在语音和自然语言处理领域,大多数数据驱动任务的评估方法都已经建立。但是,对于口语对话系统的评估需要与用户进行交互,因此比较困难。

目前,有几种方法可以评估口语对话系统的性能。其中一种方法是使用人类评估员来评估系统的性能,并根据其反馈来调整系统。另一种方法是使用自动评估指标来衡量系统的性能,例如识别准确率、理解准确率、策略成功率等。

10. HISTORICAL PERSPECTIVE

在口语对话系统中使用 POMDP 的第一篇论文可以追溯到 2000 年的 Roy 等人和 2001 年的 Zhang 等人。然而,在此之前,一些关键思想已经被探索。将对话管理视为可观察马尔可夫决策过程(MDP)并通过强化学习优化策略的想法归功于 Levin 和 Pieraccini。其他人很快就对这项工作进行了开发。然而,在明显缺乏任何明确表示不确定性或不完整信息的显式模型时使用 MDP 方法失去了动力。

搬原文

11. CONCLUSIONS

本文对对话系统的领域研究现状做了一个整体介绍。对话系统的核心问题是处理多轮交互,让人机之间的互动高效、自然、智能。在本文中我们涉及了对话系统的主要任务模块,并做了简单的概述,同时指出了对话系统所面临的问题和挑战。我们还介绍了对话系统的演进历史及其应用实例,并从口语交流、多模交互和对话管理方面介绍了该领域的研究趋势。接下来,本文详细介绍了 POMDP 统计对话管理器的相关技术及领域现状,同时也指出了其中的问题及面临的挑战。

总算读完了,虽然很多东西都没看懂,但还是学到了一些东西的。以后还是得好好看看数学公式。

勉强完成目标,再接再厉。

附上一些参考资料:111

再附上一个知乎大佬 heaven 的强化学习专栏:强化学习轻松入门