Reading---Smart Predict, then Optimize

Background

在现实世界的优化应用中，机器学习与优化方法的结合已经成为决策分析的重要方法论。本文就是要讨论数据驱动下，带有不确定参数的优化问题。这种问题通常通过“Predict, then Optimize”的范式来解决。在涉及预测再优化问题中，机器学习方法的目的是最小化预测误差，并不关注如何将预测结果用于下游的优化问题中。

符号说明

决策变量；表示可行域；表示特征向量的维度；表示训练样本数量；表示优化问题的最优解集合~解集；表示最优解，使得；

Predict, then Optimize Framework

架构的主旨在于，生成最小化决策误差而非预测误差的预测模型。转化为数学表述，决策者研究的目标：

给定特征的实例下，是的条件分布，优化问题目标函数的期望值等于基于 (即表示为)解决的优化问题的确定性版本的目标函数期望值。

给定名义优化问题：

训练数据形式
成本向量预测模型使得并定义一个类有
定义损失函数衡量成本向量预测值与真实成本向量的误差。即求解优化问题确定最佳预测模型根据经验风险最小化原则，需要满足：

给定真实成本向量 , 最可能的决策是得到
给定预测的成本向量 , 做出的决策是得到
SPO损失函数定义为：

Alternate definition with no oracle dependence is also given, we break ties with worst-case (this avoids predicting 0 all for everything)

SPO损失函数

损失函数：衡量由于成本向量预测不精确而做出次优决策时产生的超额成本。

根据范式，计算流程：

给定成本向量预测值；
求解得到决策；
计算；

但由于损失函数在计算过程中，可能的非凸性和不连续性，提出损失函数作为的凸替代，的几点性质如下：

；
是关于的凸函数；
给定，在处的次梯度为

SPO+计算

求解SPO+ERM问题的方法：1. 基于对偶理论的凸优化方法；2. 基于梯度下降；假设可行域为一个多面体区域，正则化问题等价：

16 Elmachtoub and Grigns: Smart -Prodiet, then Optimize” since for all . Clearly, replacing the constraint with in (il) results in an upper bound. Since this is true for all values of , then

In fact, one can show that inequality (治) is actually an equality using duality theory, and moreover, the optimal value of tends to . Intuitively, one can see that as gets large, then the term in the inner maximization objective becomes negligible and the solution tends to . Thus, as tends to , the inner maximization over can be replaced with maximization over , which recovers (5i). We formalize this equivalence in Proposition below.

Proposition 2 (Dual Representation of SPO Loss). For any cost vector prediction and realized cost vector , the function is monotone decreasing on , and the true SPO loss function may be expressed as

Using Proposition we shall now revist the SPO ERM problem (四) which can be written as

第一个等式来自以下事实：对于任何。第二个等式来自以下观察：所有个变量都趋向于相同的值，因此我们可以用一个变量替换它们，我们称之为。第一个不等式来自命题 2 ，具体来说, 在 (6) 中设置会导致 SPO 损失的上限（我们将在下文中重新讨论这个特定的选择）。最后，第二个不等式来自以下事实：是的可行解。（9）中的加数表达式正是我们所说的 SPO+ 损失函数，我们在定义 3 中对其进行了正式陈述。

定义 3 (SPO+ Loss)。给定成本向量预测 c 和实际成本向量损失定义为

回想一下，是 S 的支持函数，即使用此符号, SPO+ 损失可以等效地表示为 $。$

凸代理 SPO+ 损失函数推导的最后一步 (9) 涉及使用一阶展开式近似凹 (非凸) 函数。也就是说，我们应用边界这可以看作是基于在 (处计算的超梯度对的一阶近似，即 )。请注意，如果则 , 这意味着当最小化 SPO+ 时, 直观地讲, 我们试图让接近

因此，人们可能期望是的近乎最优解，因此，不等式 (9) 将是一个合理的近似值。事实上第 4 节在某些假设下提供了一致性属性，这些假设表明, 如果预测模型在足够大的数据集上进行训练, 则预测确实合理接近的预期值。

更正式地，我们让 D 表示的分布，即 D, 并考虑真实 SPO 风险（贝叶斯风险）最小化问题的总体版本:

以及 SPO+ 风险最小化问题的人口版本:

注意这里我们对没有任何限制，这意味着 H 由任何将特征映射到成本向量的可测函数组成。定义4（费希尔一致性）。如果 ( 的贝叶斯风险的最小化器集合) 也最小化 (11)，则损失函数 , $被认为与损失具有费希尔一致性。$

为了直观理解，我们让和分别表示 (11)和 (12) 的任意最优解。从 (1) 可以看出，的理想值就是。事实上, 只要的最优解以概率 1 唯一（在的分布上），即几乎肯定唯一，那么确实是 (11) 的最小化器（参见命题 5）。此外 , 任何几乎肯定等于的函数也是 (11) 的最小化器。在定理1中, 我们表明, 在假设 1 下, SPO+ 人口风险 (12) 的任何最小化器都必须几乎肯定满足，因此也最小化了 SPO 风险（11）。总之，在假设 1 下, SPO+ 损失与 SPO 损失是 Fisher 一致的。