随着时间的推移，执行涉及采取一系列多在连续状态空间中寻找反事实最优的动作序列

重依赖行动的任务的人类通常通过反思特定的案例和时间点来从经验中学习，在这些案例和时间上，不同的行动本可以带来更好的结果。虽然最近回顾性分析顺序决策过程的机器学习方法有望帮助决策者识别此类情况，但它们专注于具有有限多个离散状态的环境。然而，在许多实际应用中，环境的状态本质上是连续的。在本文中，我们旨在填补这一空白。我们首先使用有限域马尔可夫决策过程和一类广泛的双射结构因果模型来正式表征离散动作和连续状态的序列。基于这一特征，我们形式化了寻找反事实最优动作序列的问题，并表明，一般来说，我们不能指望在多项式时间内解决它。然后，我们开发了一种基于a*算法的搜索方法，该方法在环境动力学的Lipschitz连续性的自然形式下，保证返回问题的最优解。对真实临床数据的实验表明，我们的方法在实践中非常有效，并且有可能为顺序决策任务提供有趣的见解。

1引言如果棋手在一轮之后移动了国王，他们会避免输掉比赛吗？如果物理学家提前一天服用抗生素，病人会康复吗？在心理上模拟替代世界的过程，即过去的事件与现实中的事件不同，这被称为反事实推理[1]。这类想法是人类决策的常见副产品，它们与我们将因果关系和责任归因于事件和他人行为的方式密切相关[2]。在过去的十年里，强化学习代理得到了快速发展，在各种顺序决策任务中表现出（接近）人类水平的表现，如游戏[3，4]、自动驾驶[5]和临床决策支持[6，7]。结合因果推理领域取得的实质性进展[8，9]，这导致人们对机器学习方法越来越感兴趣，这些方法使用反事实推理的元素来改进或回顾性分析顺序设置中的决策[10-15]。在强化学习的背景下，序列决策通常使用马尔可夫决策过程（MDP）进行建模[16]。在这里，我们考虑具有有限范围的MDP，其中每个事件（即每个决策序列）由有限数量的时间步长组成。例如，考虑在重症监护室对患者进行临床治疗。在每个时间步长，临床医生观察环境的当前状态（例如，患者的生命体征），并在一组潜在动作（例如，药物的标准剂量）中进行选择。因此，所选择的行动导致环境（随机地）转变为新的状态，并且临床获得奖励（例如，满意度与患者的严重程度成反比）。这个过程重复进行，直到达到目标，临床医生的目标是最大限度地提高总回报。在这项工作中，我们的目标是帮助对上述例子中的个别事件进行回顾性分析。对于每一集，我们的目标是找到一个与现实中拍摄的动作序列略有不同的动作序列，

在特定事件的情况下，会导致更高的反事实奖励。在我们上面的例子中，假设患者的病情在一段时间后没有好转。一个反事实的最佳行动序列可以向临床医生强调治疗过程中的一小部分时间步骤，如果他们给药不同的药物剂量，患者的严重程度会更低。反过来，对这些时间步骤的手动检查可以为临床医生提供关于改进治疗政策的潜在方法的见解。为了推断特定事件在与现实中不同的行动序列下是如何演变的，需要使用结构因果模型（SCM）来表示环境的随机状态转换[8，17]。这一直是反事实推理和强化学习交叉点工作的一个关键方面，该工作侧重于使用离线数据设计更好的政策[10，12]或回顾性分析个别事件[11，13]的方法。其中，与我们最密切相关的工作是Tsirtsis等人[13]，该等人介绍了一种使用Gumbel-Max SCM对环境动力学建模来计算具有离散状态和动作的MDP中的反事实最优动作序列的方法[11]。然而，在许多实际应用中，例如在重症监护中，环境的状态本质上是连续的[18]。在我们的工作中，我们的目标是通过设计一种计算具有连续状态和离散动作的MDP中的反事实最优动作序列的方法来填补这一空白。有关进一步相关工作的讨论，请参阅附录a。我们的贡献。我们首先使用有限时域MDP和一类一般的双射SCM[19]来正式表征具有连续状态和离散动作的序列决策过程。值得注意的是，这类SCMs包括因果发现文献中引入的多个模型[20-25]。基于这一特征，我们做出了以下贡献：（i）我们形式化了在具有连续状态的环境中为特定事件寻找反事实最优行动序列的问题，该问题的约束条件是它在有限数量的行动中与观察到的行动序列不同（ii）我们从经典划分问题[26]中使用新的约简证明了上述问题是NP难的。这与离散状态环境中问题的计算复杂性形成了对比，后者允许多项式时间算法[13]。（iii）我们开发了一种基于a*算法的搜索方法，该算法在环境动力学的Lipschitz连续性的自然形式下，保证在终止时返回问题的最优解。最后，我们通过使用来自重症监护的真实患者数据进行一系列实验来评估我们的方法的性能和定性见解。12序列决策过程的因果模型在每个时间步长t∈{0，…，t−1}，其中t是时间范围，决策过程的特征是D维向量状态st∈S=RD，在∈A处的作用，其中A是N个作用的有限集合，并且与每对状态和作用相关的奖励R（st，at）∈R。此外，给定决策过程的一个事件，τ={（st，at）}T T=0−1，过程的结果o（τ）=Pt R（st，at）由奖励的总和给出。在余数中，我们将向量st的元素表示为st，1，st，D。此外，我们使用结构因果模型（SCM）来表征决策过程的动力学。SCM由四个部分组成：（i）一组内生变量（ii）一组外生（噪声）变量（iii）一组为内生变量赋值的结构方程，以及（iv）一组表征外生变量的先验分布。在我们的设置中，SCM C的内生变量是表示状态S0、…、…的随机变量，ST−1和动作A0，在−1。时间步长t处的动作At是基于观察到的状态St来选择的，并且由结构（策略）方程给出

图1:SCM C的有向无环图G，对顺序决策过程进行建模（图改编自[13]）。绿框表示内源性随机变量，红框表示外源性噪声变量。所有外生随机变量都是图的根节点，每个变量都是从其各自的先验分布中独立采样的。每个内生变量都是其祖先在图G中的影响，并根据等式1和2得出其值。干预do（At=a）打破了变量At与其祖先的依赖性（用虚线突出显示），并将其值设置为a。在观察到事件St+1=St+1，St=St，At=At后，反事实预测对应于修改的SCM中的干预do（At=a），其中Ut从后验分布中获取值Ut，并提供支持，使得St+1=gS（St，At，Ut）。其中Zt∈Z是向量值噪声变量，以允许在动作的选择中具有一定程度的随机性，并且其先验分布PC（Zt）由密度函数fZCt表征。类似地，下一时间步中的状态St+1由结构（转换）方程St+1:=gS（St，At，Ut），（2）给出，其中Ut∈U是向量值噪声变量，其先验分布PC（Ut）具有密度函数fUCt，我们将函数gS称为转换机制。注意，在等式2中，噪声变量{Ut}T T=0−1是相互独立的，并且在保持动作序列固定的情况下，它们是环境动力学中随机性的唯一来源。换言之，噪声值的采样序列｛ut｝T T=0−1和固定的动作序列｛at｝T T=0−2导致单个（确定性）状态序列｛st｝T=0−1。这隐含地假设状态转换是平稳的，并且不存在未观察到的混杂因素。图1描绘了与上述SCM C相对应的因果图G。使用SCM C的顺序决策的上述表示是马尔可夫决策过程的更一般的重新表述，其中（随机）策略π（a|s）由等式引起。1，过渡分布（即St+1|St，At的条件分布）由等式产生。2。具体地，St+1|St，At的条件密度函数由pC（St+1=s|St=St，At=At）=pC给出；do（At=At）（St+1=s|St=St）=Zu∈U1[s=gS（St，At，U）]·fUCt。此外，正如其他地方[11，13]所说，通过使用SCM来表示顺序决策，而不是经典的MDP，我们可以回答反事实问题。更具体地说，假设在时间步骤t，我们观察到状态St＝St，我们采取行动at＝at，下一个状态是St＋1＝St＋1。回顾过去，我们想知道，如果在时间步长t，我们处于状态s，并且我们采取了（通常）与St不同的行动a，则状态St+1为s′的概率。使用SCM C，我们可以刻画

这是通过一个反事实的转变密度函数

其中，fUC|tSt+1=St+1，St=St，At=At是噪声变量Ut的后验分布，支持使得St+1=gS（St，At，u）。在下文中，我们将假设转换机制gS相对于其最后一个自变量是连续的，并且SCM C满足以下形式的Lipschitz连续性：定义1。SCM C是Lipschitz连续的，当转移机制gS和奖励R关于它们的第一个自变量是Lipschtz连续的时，即，对于每个a∈a，u∈u，存在一个Lipschiz常数K a，u∈R+，使得对于任何s，s′∈s，‖gS（s，a，u）−gS（s′，a，u）≤Ka，u‖s−s′‖，并且，对于每个a∈a存在一个李普希茨常数Ca∈R＋，使得，对于任何s，s′∈s，|R（s，a）−R（s′，a）|≤Ca≤s−s′。在这两种情况下，‖表示欧几里得距离。请注意，尽管它们没有用因果术语来表述，但在分析强化学习算法的理论保证的先前工作中，环境动力学的类似Lipschitz连续性假设是常见的[27-33]。此外，对于实际应用（例如，在医疗保健中），这是一个相对温和的假设。考虑在某个时间点生命体征和s′相似的两名患者，他们接受相同的治疗a，并且可能影响他们健康的每个未观察到的因素u也是相同的。直观地说，定义1意味着它们的生命体征在不久的将来也将类似地演变，即值gS（s，a，u）和gS（s′，a，u）不会有显著差异。在这种情况下，值得一提的是，当过渡机制gS由神经网络建模时，可以在训练期间控制其Lipschitz常数，惩罚高值可以被视为一种正则化方法[34，35]。此外，我们将关注双射SCM[19]，这是一类相当广泛的SCMs，它包含了因果发现文献中研究的多个模型，如加性噪声模型[20]、后非线性因果模型[21]、位置尺度噪声模型[22]和具有神经网络组件的更复杂模型[23-25]。

定义2。SCM C是双射的，当转换机制gS相对于其最后一个自变量是双射，即存在一个定义明确的逆函数gS−1:S×a×S→ 使得，对于st+1，st，at，ut与st+1=gS（st，at、ut）的每一个组合，它成立ut=gS−1（st，at，st+1）。重要的是，双射SCM允许对等式4中给出的反事实跃迁密度进行更简洁的表征。更具体地说，在观察到事件St+1=St+1，St=St，At=At之后，噪声变量ut的值ut只能是这样的：ut=gS−1（St，At，St+1），即，ut的后验分布是一个点质量，其密度由下式给出

然后，对于决策过程的给定事件τ，我们得出（非平稳）反事实转移密度由下式给出

由于这个密度也是一个点质量，因此产生的反事实动力学是纯粹确定性的。这意味着，在双射SCM下，“如果我们处于状态s并在时间t采取行动a，那么在时间t+1时的状态会是什么，因为事实上，我们处于st，我们采取了，环境过渡到st+1？”这个问题的答案只由s′=gS s，a，gS−1（st，at，st+1）给出

关于双射SCMs的反事实可识别性。最近，Nasr-Esfahany和Kiciman[36]已经表明，当外生变量Ut是多维的时，双射SCM通常是不可反事实识别的。换言之，即使可以访问从真实的SCM C采样的无限量的三元组{st，at，st+1}，也总是有可能找到具有转换机制hS和分布PM（Ut）的SCM M̸=C，其包含与C相同的转换分布（即，它完全符合观测数据），但导致不同的反事实预测。尽管我们随后的算法结果不要求SCM C是反事实可识别的，但我们将在第5节的实验中使用的双射SCM的子类是反事实可以识别的。这个子类的定义属性，我们称之为元素双射SCMs，是转换机制gS可以解耦为D独立机制gS，i，使得对于i∈{1，…，D}，St+1，i=gS，i（St，At，Ut，i）。3可识别性证明遵循与相关工作[12，19]中发现的证明类似的推理，为了完整性，我们提出了它，以及相关的正式声明，见附录B。

假设没有未观察到的混淆。不存在隐藏的混杂因素的假设是反事实推理和强化学习交叉点的工作[10-13]以及更广泛的因果推理文献[37-41]中经常做出的假设。也就是说，人们越来越感兴趣的是，在部分可观察的MDP（POMDP）中开发对某些类型的混淆具有鲁棒性的强化学习策略[42-44]，以及在具有非马尔可夫结构的连续决策环境中学习动态治疗机制[45，46]。此外，还有一系列工作专注于在非序列混杂环境中识别反事实量[47-49]。在这种情况下，我们认为在未观察到的混杂情况下计算反事实最优动作序列是未来工作的一个非常有趣的方向

3问题陈述设τ={（st，at）}T T=0−1是决策过程的一个观察事件，其动力学特征是Lipschitz连续双射SCM。为了表征任何替代行动序列在特定事件的情况下可能实现的反事实结果，我们建立在第2节的公式基础上，并定义了具有确定性转换的非平稳反事实MDP M+=（S+，a，Fτ，t+，R+，t）。这里，S+=S×{0，…，T−1}是一个增强状态空间，使得每个S+∈S+是一对（S，l），表明反事实集将处于状态S∈S，其中已经执行了l个动作变化。因此，R+是一个奖励函数，对于所有（s，l）∈s+，a∈a，其形式为R+（（s，1），a）=R（s，a），即，它不根据已经执行的动作变化的数量而变化。最后，含时跃迁函数Fτ，t+：S+×A→ S+定义为

直观地，在这里，我们根据等式中给出的反事实转移密度的点质量来设置转移函数。6，我们使用第二坐标来跟踪与观察到的动作序列相比所执行的变化，直到时间步长t。现在，给定事件τ的初始状态s0和任何反事实动作序列{a′t}t t=0−1，我们可以计算出相应的反事实集τ′={（s′t，lt），a′t}t t=0−1。它的状态序列递归地由

其反事实结果由o+（τ′）表示：=Pt R+（（s′t，lt），a′t）=Pt R（s′t，a′t）。然后，类似于Tsirtsis等人[13]，我们的最终目标是找到反事实行动序列{a′t}t t=0−1，从观察到的初始状态s0开始，最大化受

对可以不同于观察到的反事实动作的数量的约束。，

其中a0，aT−1是观察到的动作。不幸的是，使用经典划分问题[26]的一个约简，以下定理表明我们不能指望在多项式时间内找到最优作用序列：4定理3。由等式9定义的问题。NP难

4通过A*搜索寻找最优反事实动作序列为了应对问题计算复杂性的增加，我们开发了一种基于经典A*算法[50]的最优搜索方法，我们发现该方法在实践中非常有效。我们的出发点是观察到，方程的问题。9提出了一个最优子结构，即其最优解可以通过将最优解组合到更小的子问题来构造。对于观察到的事件τ，设Vτ（s，l，t）是在反事实事件中可能实现的最大反事实奖励，其中，在时间t，过程处于（反事实）状态s，并且到目前为止，与观察到的动作序列相比，有l个动作不同。正式地

式中（sa，la）=Fτ，t+（（s，l），a）。在l=k的基本情况下（即，所有允许的动作变化都已经执行），对于所有s∈s和t

将问题转化为图形搜索。我们将问题的解空间表示为图，其中每个节点v对应于一个元组（s，l，t），其中s∈s，l∈{0，…，k}和t∈{0，……，t−1}。l＜k且t＜t−1的每个节点v＝（s，l，t）都有|A|出边，每个出边与动作A∈A相关，携带奖励R（s，A），并导致节点va＝（sa，la，t+1），使得（sa，la）＝Fτ，t+（（s，l），A）。在l=k的情况下，节点v正好有一条边对应于在时间t观察到的动作。最后，当t=t−1时，输出边通向一个公共节点vT=（s∅，k，t），我们称之为目标节点，它本身没有输出边。请注意，s∅的确切值是无关的，我们只为了表示的完整性而包含它。设s0为观察到的事件的初始状态。然后，很容易注意到，从根节点v0=（s0，0，0）开始，路径v0上的每个节点vi的第一个元素，vi，vT形成一个序列

反事实状态，以及连接这些节点的边使得对应的反事实动作序列在最多k个动作中与观察到的动作序列不同。也就是说，反事实结果o+（τ）=PT t=0−1 R（s′t，a′t）表示为与路径中的每个边相关的奖励的总和，并且由等式9定义的问题等价于找到从v0开始并以vT结束的最大总奖励的路径。不幸的是，由于状态s是实值的向量，即使枚举图的所有节点也需要动作数量的时间指数

为了应对这一挑战，我们求助于A*算法，该算法通过优先探索图中我们有先验信息的部分，即它们更有可能导致更高总回报的路径，从而在图上执行更有效的搜索。具体地，该算法迭代地进行，并维护要访问的节点队列，该队列被初始化为仅包含根节点v0。然后，在每一步，它从队列中选择一个节点，并检索图中的所有子节点，这些子节点随后被添加到队列中。当被访问的节点是目标节点vT时，它终止。关于a*算法的伪代码实现，请参阅附录D中的算法2。A*算法的关键元素是它从队列中选择下一个要访问的节点所依据的标准。设vi=（si，li，t）是队列中的候选节点，并且rvi是该算法迄今为止所遵循的从v0到vi的路径的总回报。然后，a*算法接下来访问最大化总和rvi+V的节点vi，其中VŞτ是一个启发式函数，旨在估计通过从vi=（si，li，t）开始并以目标节点vT结束的任何路径可以实现的最大回报，即，它给出了数量Vτ（si，li，t）的估计。直观地说，启发式函数可以被认为是图搜索的“未来之眼”，它将算法引导到更有可能导致最优解的节点，并且算法的性能取决于Vτ（si，li，t）与Vτ（si，li，t）的近似质量。接下来，我们将寻找满足一致性5的启发式函数，以保证如上所述的a*算法在终止时返回最优解[50]。

计算一致的启发式函数。我们首先提出了一种算法，该算法计算有限点集的函数值VŞτ（s，l，t），使得l∈{0，…，k}，t∈{0，……，t−1}，s∈s†⊂s，其中s†是预定义的有限状态集，即我们稍后讨论其构造的锚集。然后，基于SCM C的Lipschitz连续性，我们证明了这些计算的V？τ值是相应值V？（s，l，t）的有效上界，并且我们通过用这些上界来表示启发式函数V？τ的定义，将其扩展到所有s∈s上。最后，我们证明了由上述过程产生的函数是一致的。为了计算上界VŞτ，我们利用了值Vτ（s，l，t）满足Lipschitz连续性形式的观测结果，如以下引理所述。引理4。设ut=gS−1（st，at，st+1），Kut=maxa∈A Ka，ut，C=maxa≠A Ca和序列L0，LT−1∈R+使得对于t∈{0，…，t−2}，LT−1=C和LT=C+LT+1Cut。然后，它认为，对于所有t∈{0，…，t−1}，l∈{0，……，k}和s，s′∈s，|Vτ（s，l，t）−Vτ（s′，l，t）|≤Lt‖s−s′‖。基于这一观察，我们的算法以自下而上的方式进行，并计算锚集s†中所有l∈｛0…，k｝，t∈｛0，..，t−1｝和s的值Vτ（斯，l，特）的有效上界。为了获得直觉，假设对于给定的t，已经为所有s∈s†，l∈{0，…，k}计算了值V∈τ（s，l，t+1），并且它们确实是相应的Vτ（s、l，t+1）的有效上界。然后，对于一些s∈s†和l∈{0，…，k}，设（sa，la）=Fτ，t+（（s，l），a）。由于sa本身可能不属于有限锚集S†，因此该算法使用所有锚S†∈S†的值VŞ。算法1总结了整个过程，保证提案5。对于所有的s∈s†，l∈{0，..，k}，t∈{0，..−1}，它认为V∈t（s，l，t）≥Vt（s、l，t。返回上界，如以下命题所示：

提案5。对于所有的s∈s†，l∈{0，..，k}，t∈{0，..−1}，它认为V∈t（s，l，t）≥Vt（s、l，t。

接下来，我们使用由算法1计算的值V ntrτ（s，l，t）在整个域上扩展V trlτ的定义，如下所示。对于一些s∈s，a∈a，设（sa，la）=Fτ，t+（（s，l），a），则，我们有

其中，对于l=k，A′={at}，对于l

为了解决这个问题，我们引入了一种蒙特卡罗模拟技术，该技术将观察到的状态{s0，…，sT−1}和由M个随机采样的反事实动作序列a′0，…产生的所有唯一状态{s′0，.，s′T−1}添加到锚集，a′T−1。具体来说，对于每个动作序列，我们首先从{1，…，k}和Ak′中分别均匀随机地采样要改变的动作的数量k′和这些动作将是什么。然后，我们从{0，…，T−1}中采样发生变化的k′时间步长，每个时间步长T都有一个要选择的概率Lt/Pt′Lt′。这使采样偏向于较早的时间步长，其中由于Lipschitz常数较高，惩罚项较大。正如我们将在

图2：我们的方法在不同配置下的计算效率，通过有效分支因子（粉色左轴）和A*算法的运行时间（绿色右轴）测量。在面板（a）中，我们设置M=2000和k=3。在面板（b）中，我们设置Lh=1.0和k=3。在面板（c）中，我们设置Lh=1.0，M=2000。在所有面板中，我们设置Lξ=0.1，误差条表示200名患者在200次执行A*算法时的95%置信区间，水平T=12。下一节，这种方法在实践中效果良好，它允许我们通过适当调整样本M的数量来控制A*算法的运行时间。我们在附录E中试验了额外的锚集选择策略。

5使用临床败血症管理数据的实验

实验设置。为了评估我们的方法，我们使用了MIMIC-III[52]的真实患者数据，这是一个可自由访问的重症监护数据集，通常用于医疗保健的强化学习[6，53-55]。我们遵循Komorowski等人[6]的预处理步骤，以确定20926名接受败血症治疗的患者[56]。每个患者记录包含生命体征和以4小时为间隔的时间步长提供的治疗信息。作为额外的预处理步骤，我们丢弃相关时间范围T短于10的患者记录，从而得到15992名患者的最终数据集，这些患者的时间范围在10到20之间。为了形成我们的状态空间S=RD，我们使用D=13个特征。其中四个特征是人口统计或上下文特征，因此我们总是将它们的反事实值设置为观察到的值。其余的D~=9个特征是时变的，包括SOFA评分[57]——器官衰竭率的标准化评分，以及计算所需的八个生命体征。由于SOFA得分与患者死亡率呈正相关[58]，我们假设每个s∈s给出的奖励R（s）等于其SOFA值的否定。在这里，很容易看出，这个奖励函数只是s的投影，因此，对于所有a∈a，它是Lipschitz连续的，常数Ca=1。根据相关工作[6，53，55]，我们考虑由25个动作组成的动作空间a，这些动作对应于5×5水平的血管升压药和静脉输液。有关功能和操作的更多详细信息，请参阅附录F。

为了对时变特征的转换动力学进行建模，我们考虑了一个SCM C，其转换机制采用位置尺度形式gS（St，At，Ut）=h（St，At）+ξ（St，At）⊙Ut，其中h，ξ:S×a→ R~RD，而⊙表示逐元素乘法[22，24]。值得注意的是，这个模型是元素双射的，因此它是反事实可识别的，如第2节所示。此外，我们使用神经网络对位置和尺度函数h和ξ进行建模，并将它们的Lipschitz常数分别强制为Lh和L。这导致Lipschitz连续SCM C具有Ka，u=Lh+Lξmaxi|ui|。此外，我们假设噪声变量Ut遵循均值为零的多元高斯分布，并允许其协方差矩阵为（可训练的）参数。我们使用随机梯度下降联合训练网络h和ξ的权重以及观察到的患者转移上的噪声先验的协方差矩阵，其中每个转移的负对数似然性作为损失。在我们的实验中，如果没有另行规定，我们使用具有Lipschitz常数Lh=1.0，L⏴=0.1的SCM，其实现的对数似然性仅比在没有任何Lipschiitz约束的情况下训练的最佳模型低6%。有关网络架构、培训的更多详细信息，请参阅附录F

图3：患者发作的回顾性分析。面板（a）显示了一组200名患者的平均反事实改善情况，该组患者的水平T=12，作为k的函数，其中误差条表示95%的置信区间。图（b）显示了k=3时所有患者的反事实改善分布，其中垂直虚线表示中位数。图（c）显示了当k=3时，患者的观察到的（实线）和反事实（虚线）SOFA评分随时间变化，该患者的反事实改善率为19.9%。向上（向下）箭头表示动作变化，表明升压药（V）和液体（F）的剂量较高（较低）。在所有面板中，我们设置M=2000。

程序和我们加强Lipschitz连续性的方法。6结果。我们首先根据（i）位置网络的Lipschitz常数Lh，（ii）用于生成锚集S†的蒙特卡罗样本M的数量，以及（iii）可能与观察到的不同的动作的数量k来评估我们的方法的计算效率。我们使用运行时间和有效分支因子（EBF）[50]来测量效率。EBF被定义为实数b≥1，使得由a*扩展的节点数等于1+b+b2+··+bT，其中T是地平线，接近1的值表明启发式函数在引导搜索方面最有效。图2总结了结果，表明我们的方法总体上保持了相当低的运行时间，该运行时间随着用于生成锚集的蒙特卡罗样本M的数量而减少，并随着Lipschitz常数Lh和动作变化的数量k而增加。这可能并不令人惊讶，因为随着Lh的增加，启发式函数变得更加松散，并且随着k的增加，搜索空间的大小呈指数级增加。从长远来看，对于Lh=1.0、k=3和水平T=12的问题实例，由我们的启发式函数引导的A*搜索实际上等效于在具有2.112≈7355个叶子的整棵树上的穷举搜索，而我们问题的相应搜索空间由300多万个动作序列组成，从根节点到目标节点有300多万条路径。

接下来，我们研究由我们的方法生成的反事实动作序列在多大程度上会导致我们数据集中的患者获得更好的结果。对于每个患者，我们测量他们的反事实改善——反事实和观察到的发作之间累积SOFA评分的相对下降。图3a和3b总结了结果，结果表明：（i）平均反事实改进随着k的增加而逐渐增加；（ii）反事实改善的中位数仅为5%，这表明临床医生为大多数患者做出的治疗选择接近最佳，即使事后来看也是如此；以及（iii）有176名患者，我们的方法表明，对他们来说，不同的行动顺序会导致至少好15%的结果。也就是说，我们将分布尾部的患者视为“有趣的病例”，应该推迟到领域专家那里进行更仔细的检查，我们在图3c中给出了一个这样的例子。在这个例子中，我们的方法表明，如果患者早期接受更高剂量的静脉输液，而一些后期给药的输液被血管升压药取代，他们的SOFA评分会随着时间的推移而降低。尽管我们将该病例描述为纯粹的轶事，但反事实事件是可信的，因为有迹象表明，在感染性休克的早期阶段静脉输液可降低死亡率[59]

6结论在本文中，我们介绍了在具有连续状态动力学的序列决策过程中寻找反事实最优动作序列的问题。我们证明了这个问题是NP难的，为了解决它，我们引入了一种基于a*算法的搜索方法，该方法保证能找到最优解，但需要注意的是，它的运行时间可能因问题实例而异。最后，使用真实的临床数据，我们发现我们的方法在实践中非常有效，它有可能通过突出感兴趣的事件和时间步骤来为领域专家提供有趣的见解，以供进一步检查。我们的工作为今后的工作开辟了许多有趣的途径。例如，以不实现严格的反事实乐观为代价，开发具有在多项式时间内运行的近似保证的算法将是有趣的。此外，由于像我们这样的方法的实用性是基于描述环境的SCM是准确的假设，因此开发与人类领域知识相一致的方法来学习SCM将是一件有趣的事情。最后，使用来自其他应用程序的真实数据集验证我们的方法，并进行用户研究，其中我们的方法发现的反事实动作序列由采取观察到的动作的人类专家（例如临床医生）进行系统评估，这将是一件有趣的事。

服务器租用托管，机房租用托管，主机租用托管，https://www.e1idc.com