一个田螺突然就

如清风徜徉

Optimally Integrating Ad Auction into E-Commerce Platforms

IAS(Integrated Ad System)模型即集成广告系统模型,用于描述电商平台上广告与有机搜索结果混合排列的情况。该模型的目标函数和约束条件设计紧密围绕电商平台关注的核心指标,旨在平衡广告收入与用户体验。

  1. 目标函数
    • 收入(Revenue):$Revenue =\int_{V} \sum_{i \in A} p_{i}(v) w_{i} x_{i}(v) f(v) dv$,此公式表示收入是对所有广告商品的支付价格、质量因子、分配情况以及概率分布进行积分求和。其中,$p_{i}(v)$是广告商品$i$的支付价格,$w_{i}$为其质量因子,$x_{i}(v)$代表分配规则,$f(v)$是概率分布函数。通过这一函数计算,反映出平台从广告投放中获取的即时收入 。
    • 商品交易总量(GMV):$GMV=\int_{V}\left[\sum_{i \in A} g_{i} w_{i} x_{i}(v)+\sum_{i \in O} g_{i} w_{i} x_{i}(v)\right] f(v) dv$,该公式计算的是平台的商品交易总量,考虑了广告商品和有机商品的预估交易量、质量因子和分配情况。其中,$g_{i}$为商品$i$的预估交易量,对广告商品和有机商品分别求和再积分,体现了平台业务的整体交易规模,是衡量用户体验和平台长期收益的重要指标。
    • 无约束问题(Unconstrained Problem):$UCST (\alpha)$给定加权系数$\alpha \in[0,1]$,通过线性凸组合收入和GMV来构建目标函数,即$max _{x \in \mathcal{X}} \alpha \cdot Revenue +(1-\alpha) \cdot GMV$。该目标函数旨在在不同权重下,同时考虑收入和GMV,寻找能使两者综合效益最大化的机制。例如,当$\alpha$接近1时,更注重收入;当$\alpha$接近0时,则更倾向于GMV。
      Unconstrained Problem $UCST (\alpha)$ ) Given the weighted coefficient $\alpha \in[0,1]$ ,the unconstrained problem $UCST (\alpha)$ ) can be written as
      $max _{x \in \mathcal{X}} \alpha \cdot Revenue +(1-\alpha) \cdot Volume. (4)$
    • 约束问题(Constrained Problem):$CST(V_{0})$给定GMV阈值$V_{0}$,以优化收入为目标,即$max Revenue$,同时需满足$GMV \geq V_{0}$和$x \in \mathcal{X}$的约束。此目标函数强调在保证一定GMV水平的前提下,最大化广告收入,体现了平台在平衡用户体验和短期收益时的考量。
      Constrained Problem $CST(V_{0})$ ) Given a threshold $V_{0}$ , the constrained problem $CST(V_{0})$ ) can be written as
      $$max Revenue \quad (P1)$$
      $$s.t. Volume \geq V_{0} \quad(C 1.1)$$
      $$x \in \mathcal{X} \quad(C 1.2)$$
  2. 约束条件
    • 分配规则约束:对于分配规则$x_{ik}(b)$需满足$\sum_{k} x_{ik}(b) \leq 1, \forall i \in A \cup O$,确保每个商品最多被分配到一个展示位;$\sum_{i \in A} x_{ik}(b)+\sum_{i \in O} x_{ik}(b)=1, \forall k$,保证每个展示位都有且仅有一个商品;$x_{ik}(b) \in{0,1}, \forall i, k$,表示商品是否被分配到展示位只能是0或1的二元选择。这些约束保证了分配的合理性和唯一性 。
    • 个体理性(Individual Rationality):$U_{i}(x, p, b_{i}) \geq 0, \forall b_{i} \in[0, u_{i}], \forall i \in A$,此约束确保广告商参与拍卖的期望效用非负,即广告商在平台的广告投放行为能获得至少为零的收益,这是吸引广告商参与的基本条件。
    • 贝叶斯激励兼容(Bayesian Incentive Compatibility):$U_{i}(x, p, v_{i}) \geq U_{i}(x, p, b_{i}), \forall b_{i} \in[0, u_{i}], \forall i \in A$,该约束保证广告商如实报告自身价值是最优策略,避免广告商虚假报价,维护拍卖机制的公平性和有效性。

无约束问题$UCST(\alpha)$

  • 目标函数:$max {x \in \mathcal{X}} \alpha \cdot Revenue+(1 - \alpha)\cdot GMV(4)$。这里的$\alpha\in[0,1]$是加权系数,用于平衡对收入和GMV的侧重程度。
    转化为引理 2:要最大化目标函数 (4),机制需要最大化目标
    $$\int
    {V} \sum_{i \in I}\left(\alpha \phi_{i}\left(v_{i}\right)+(1-\alpha) g_{i}\right) w_{i} x_{i}(v) f(v) d v-\alpha \sum_{i \in I} U_{i}(x, p, 0) . (5)$$
  • 修正虚拟价值排序:机制$M$涉及到定义修正虚拟价值$\psi_{i}(v_{i})=(\alpha \phi_{i}(v_{i})+(1 - \alpha)g_{i})w_{i}=(1 - \alpha)g_{i}w_{i}$。其中$\phi_{i}(v_{i})$是广告商品$i$的虚拟价值,$g_{i}$是商品$i$的预估交易量,$w_{i}$是商品$i$的质量因子。按照这个修正虚拟价值对所有商品(包括广告商品和有机商品)进行排序。
  • 定价规则(迈尔森):有机商品的支付为0,广告商品的支付价格是根据其在排序中的位置和相关价值计算得出的,以保证个体理性(广告商参与拍卖的期望效用非负)和贝叶斯激励兼容(广告商如实报告自身价值是最优策略)。
    给定分配规则和支付规则,广告项目 i 的出价为$b_{i}$时的预期效用可以表示为:$$U_{i}\left(x, p, b_{i}\right)=\int_{V_{-i}}\left(v_{i}-p_{i}\left(b_{i}, v_{-i}\right)\right) w_{i} x_{i}\left(b_{i}, v_{-i}\right) f_{-i}\left(v_{-i}\right) d v_{-i}$$
    因为$p(b)$只出现在$U_{i}(x,p,0)$中,并且我们需要保证(IR)的性质,根据引理 1,如果我们选择$p_{i}(v)=v_{i}-\frac{\int_{0}^{v_{i}} x_{i}(s_{i},v_{-i})ds_{i}}{x_{i}(v)}$作为支付规则,那么$U_{i}(x,p,0)$将为 0,并且我们只需要考虑选择合适的$x(b)$来最大化式(5)的第一部分。
  • 分配规则:将广告商品插入有机商品序列进行分配。对于分配规则$x_{ik}(b)$,要满足$\sum_{k}x_{ik}(b)\leq1,\forall i\in A\cup O$(每个商品最多被分配到一个展示位)、$\sum_{i\in A}x_{ik}(b)+\sum_{i\in O}x_{ik}(b) = 1,\forall k$(每个展示位都有且仅有一个商品)和$x_{ik}(b)\in{0,1},\forall i,k$(商品是否被分配到展示位是二元选择)等条件。
    对于分配规则,我们将 $\psi_{i}(v_{i}) \stackrel{ def }{=}(\alpha \phi_{i}(v_{i})+(1-\alpha) g_{i}) w_{i}$ 定义为物品 $i$ 的修正虚拟价值。不难验证,以下分配规则可以最大化公式(5)的第一部分。
    $x_{i k}(v)= \begin{cases}1 & 如果\psi_{i}\left(v_{i}\right)是第 k 高的修正虚拟价值,k\in{1,2,\ldots,K}。\0&否则。\end{cases}$

约束问题$CST(V_{0})$ -商业化率约束

可通过对偶转为无约束问题

  • 放宽约束条件:由于可行域是离散的,即$x_{i k}(v)$不是关于出价$v$的连续函数,因此很难直接优化目标。我们首先将约束$x_{i k}(v)∈{0,1}$在(C1.2)中放宽为$x_{i k}(v)∈[0,1]$,并将放宽后的可行域记为$\bar{x}$。放宽后的约束问题为:
    最大化$$R(x)\stackrel{ def }{=}\int_{V}\sum_{i\in I}w_{i}p_{i}(v)x_{i}(v)f(v)dv(P2)$$
    约束条件为$$V(x)\stackrel{ def }{=}\int_{V}\sum_{i\in I}g_{i}w_{i}x_{i}(v)f(v)dv\geq V_{0}(C2.1)$$
    $$x\in\overline{\mathcal{X}}(C2.2)$$
  • 对偶问题:对于可访问的$V_{o}$,强对偶性成立意味着
    $$\begin{aligned}&\underbrace{\max_{x:x\in\mathcal{X},V(x)\geq V_{0}}R(x)}{\text{原始问题}}=\underbrace{\min{\lambda\geq0}\max_{x\in\mathcal{X}}\left(R(x)+\lambda\left(V(x)-V_{0}\right)\right)}{\text{对偶问题}}\&=\min{\lambda\geq0}\max_{x\in\mathcal{X}}\left[\int_{V}\sum_{i\in I}\left(p_{i}\left(b_{i}\right)+\lambda g_{i}\right)w_{i}x_{i}(b)f(b)db-\lambda V_{0}\right]。\end{aligned}$$
  • 分配规则:当给定一个$\lambda$时,它是一个具有松弛可行域$\bar{x}$的无约束问题。由于$\bar{x}$的系数矩阵是完全单模矩阵([22]),内部问题的最优解是整数形式,即 0-1 形式。因此,内部问题的最优解可以通过机制 M 以$\alpha = 1/(\lambda + 1)$获得,即
    $$ x_{i k}^{\lambda}(v)=\begin{cases}1&\text{如果}\psi_{i}^{\lambda}\left(v_{i}\right)\text{是第}k\text{高的,}k\in{1,2,\ldots,K},\0&\text{否则,}\end{cases}$$
    其中$\psi_{i}^{\lambda}(v_{i})\stackrel{def}{=}[(\phi_{i}(v_{i})+\lambda g_{i})w_{i}]/(\lambda + 1)$。
  • 定价规则:$p_{i}^{\lambda}(v)$可以通过在(7)中将$x_{i k}(v)$替换为$x_{i k}^{\lambda}(v)$得到。
  • $\lambda$计算:二分
    alt text
  • 定理 2:具有阈值$V_0$的约束问题等价于一个具有系数$\alpha^{}$的无约束问题,其中$\alpha^{}=1/(\lambda^{}+1)$,并且$\lambda^{}$是约束问题中的最优拉格朗日乘子。

广告数量约束

  1. 问题设定:在集成广告系统中引入对广告商品总数的限制,要求广告商品数量不超过 $c$ ,即 $\sum_{i \in A} \sum_{k} x_{ik}(v) \leq c$,将此约束加入原有的约束条件集 $x$ 后得到新的可行域 $x’$。
  2. 无约束问题的最优机制:基于此前无约束问题的结论,商品按修正虚拟价值 $\psi_{i}(v_{i})$ 排序。在新约束下,为保证广告商品数量符合预算,在排序时仅考虑排名前 $c$ 的广告商品。由此得到扩展机制 $M’(c)$,具体步骤为:
    • 将所有广告商品按 $\psi_{i}(v_{i})$ 降序排列,保留前 $c$ 个广告商品,删除其余广告商品;
    • 针对剩余的广告商品和所有有机商品,运行系数为 $\alpha$ 的原无约束问题机制 $M$。
    • 由于原机制 $M$ 的最优性以及对广告商品数量的有效控制,$M’(c)$ 是当前设定下无约束问题的最优机制。
  3. 约束问题的求解:对于约束问题,其求解逻辑与前文类似,但由于新可行域 $x’$ 的系数矩阵不再是全幺模矩阵,导致求解难度增加。通过将其转化为最小费用最大流问题(证明见附录 Lemma 6),可证明松弛问题仍具有0 - 1形式的最优解。基于此,约束问题仍能通过选择合适参数转化为无约束问题求解,从而将此前针对无约束和约束问题关系的结论(Theorem 2)扩展到存在广告数量预算约束的场景。

广告间隔约束

用广告数量约束的机制,分别运行局部的无约束问题

PC端

  • 页面划分:当我们在电子商务平台上通过个人电脑搜索产品时,搜索结果通常显示为几行,每行包含几个项目。受这种布局的启发,我们希望限制每行中的广告数量以让用户感到舒适。鉴于此,我们将一个搜索结果页面分成多行,每行包含连续的 l 个槽位。然后,我们要求在这 l 个槽位中显示的广告项目最多为 c 个。我们将这个模型称为稀疏集成广告系统——行(SIASR)。

  • 约束条件:$$\sum_{i \in A} \sum_{k = ml + 1}^{(m + 1)l} x_{ik}(v)≤c,m = 0,1,\ldots,|K/l|$$
    $$\sum_{i \in A} \sum_{k=\lfloor K / l] l+1}^{K} x_{i k}(v) ≤c$$。将它们添加到$x$中并表示新的约束条件。

  • 无约束问题的最优机制:基于上述分析,我们可以对每个部分运行机制(M’(c))来为稀疏集成广告系统(SIASR)生成一个可行的广告排列方案。这是因为机制(M’(c))本身具有最优性,所以每个部分都能实现最优的广告商品分配,进而使得整个页面所有展示位都能达到全局最优的分配效果。由此,我们得到了在这种设定下的最优机制,记为(\tilde{M}(c, l))。

    • 第一步:运行机制(M’(c)),对所有商品(包括广告商品和自然商品)分配前(l)个展示位。机制(M’(c))会根据商品的相关价值对商品进行排序,并依据广告商品数量预算(c),从所有商品中选择合适的商品分配到这(l)个展示位上。
    • 第二步:运行机制(M’(c)),对剩余的所有商品分配接下来的(l)个展示位。在完成第一步分配后,剩余商品的集合发生了变化,再次运行机制(M’(c)),从这些剩余商品中选择合适的商品填充接下来的(l)个展示位。
    • 第三步:重复第二步,直到所有展示位都分配完毕。需要注意的是,在最后一轮分配时,展示位的数量可能会小于(l)。这是因为前面按照每(l)个展示位一轮进行分配,到最后可能会剩下不足(l)个展示位,此时依然按照机制(M’(c))对剩余商品进行分配,以完成整个搜索结果页面的广告与自然商品的分配。
  • 约束问题:我们通过引理 7(在附录中显示)克服了这个问题。到目前为止,我们解决了 SIASR 的受约束问题,并将定理 2 扩展到了这种情况。
    引理 7.对于 SIASR,约束问题的松弛内问题可以构造为最小费用最大流问题,并且具有 0-1 形式的最优解。

移动端

  • 页面划分:一般来说,输入一个关键字后,搜索结果在一列中显示(与个人电脑终端的布局不同)。如果我们仍然想限制广告的稀疏性,我们需要在任何连续的 l 个位置上添加约束,即任何连续的 l 个位置上最多显示 c 个广告项。

  • 约束条件:$\sum_{i∈A}\sum_{k = m + 1}^{m + l}x_{ik}(v)\leq c$,$m = 0,1,\ldots,K - l$,并将新的可行区域表示为$\hat{x}$。我们将这个模型称为稀疏集成广告系统——列(SIASC)。

  • 无约束问题的最优机制

  1. 运行机制$M’(c)$以在所有物品上分配前$l$个时段。
  2. 运行机制$M’(c - a)$,为所有剩余物品分配下一个时段,其中$a$是最后$l - 1$个时段中的广告物品数量。
  3. 重复步骤 2,直到所有槽位都被分配。
  • 约束问题:对于约束问题,我们可以将 SIASR 中使用的方法扩展到这种设置。唯一的区别是,在这种设置下,连续的 l 个槽有更多的约束。然而,最终它并不影响难度。我们只需要稍微修改一下图 6 的结构:添加一定数量的节点$k_{i}$来代表更多的组,并连接弧$s_{j}^{\prime\prime}k_{i}$,其中$j\in{i,i + 1,\cdots,i + l - 1}$,以及弧$k_{i}t$。其他分析是相似的。这样,我们将定理 2 推广到 SIASC 的情况。

NMA: Neural Multi-slot Auctions with Externalities for Online Advertising

  • 研究背景:在线广告是众多互联网平台的主要收入来源,拍卖机制的设计对平台、用户和广告商至关重要。广义第二价格(GSP)拍卖是常见机制,但存在用户点击假设与实际不符等问题。如在美团外卖平台,广告展示受多种因素影响,而GSP未考虑这些外部性。Deep Neural Auctions(DNA)虽有改进,但仍有局限,VCG及其变体WVCG在理论上可处理外部性,但在实践中面临收入下降或参数求解复杂等问题。
  • 研究目的:提出一种新的神经多槽拍卖机制(NMA),有效建模全局外部性,平衡平台收入和社会福利,同时解决现有机制的问题。
  • 方法与模型
    • 模型结构
      • 上下文感知列表式预测模块(CLPM):采用参数共享结构,输入广告列表及相关公共信息,通过嵌入层、自注意力单元和目标注意力单元处理,输出列表式pCTR。还提出基于广告真实反馈的辅助损失,使模型能有效建模全局外部性,提高预测准确性。
      • 列表式深度排名模块(LDRM):结合拍卖机制与深度学习,设计μ-Net子网络计算广告列表排名分数,确定支付规则,保证激励兼容性(IC)和个体理性(IR),实现端到端优化,提高排名公式表达能力。
      • 列表式可微排序模块(LDSM):将排序操作从不可微转换为可微,通过定义排序算子和放松argmax操作,输出行随机置换矩阵表示选择概率,使复杂拍卖机制能端到端训练,解决LDRM在分配和支付处理上与深度学习不适应的问题。
      • 社会福利最大化辅助损失:基于广告列表社会福利定义,构建辅助损失,加速学习过程,减少社会福利下降,通过调整参数平衡NMA性能,确保满足社会福利约束。
    • 实验设计
      • 数据集:使用公共数据集Avito和工业数据集Meituan进行离线实验,将数据集按时间或比例划分为训练集和测试集。
      • 评估指标:包括点击率(CTR)、每千次展示收入(RPM)、每千次展示社会福利(SWPM)和社会福利最大化比率(SWMR),同时评估机制的IC属性。
      • 对比方法:与GSP、DNA、VCG和WVCG等代表性拍卖机制对比。
  • 实验结果
    • 离线实验
      • 性能比较:NMA在两个数据集上的RPM、SWPM和CTR指标上优于DNA和GSP,能有效建模全局外部性;与VCG相比,NMA在广告收入和社会福利间平衡更好;在RPM指标上明显优于WVCG,验证了NMA的强大表达和学习能力。NMA的IC-R值与VCG相当且优于GFP,满足IC约束。
      • 模块消融研究:去除CLPM、LDRM - LDSM或社会福利最大化辅助损失后的NMA变体性能均下降,证明各模块对NMA性能提升有重要作用,CLPM能有效建模全局外部性,辅助损失有助于平衡广告收入和社会福利。
      • 超参数分析:α₁增大时,SWPM增加但RPM下降,α₂在一定范围内增加可提升性能,过大则导致性能下降,说明辅助损失可帮助平衡收入和福利,且CLPM辅助损失权重需合理设置。
    • 在线A/B测试:在美团外卖平台进行为期一个月的在线A/B测试,NMA相比GSP在CTR、RPM和SWPM上分别有显著提升,证明NMA在实际应用中可实现更高平台收入和社会福利,尽管在线测试与离线实验结果在绝对值上存在差异,但趋势一致。
  • 研究结论:NMA有效建模全局外部性,通过设计的模块和辅助损失平衡平台收入和社会福利,在离线和在线实验中表现优异,已部署于美团外卖平台。未来可进一步优化,如采用列表生成模块替代全排列算法,提高工作效率。

摘要

在线广告拍卖为社交网络服务和电子商务平台带来了数十亿美元的收入。对于广告商来说简单易懂的广义第二价格(GSP)拍卖,几乎已成为行业中广告拍卖机制的基准。然而,大多数基于GSP的行业实践都假定用户点击仅依赖于广告本身,而忽略了外部项目的影响,即外部性。最近,深度神经网络拍卖(DNA)尝试用深度神经网络升级GSP,并在一定程度上对局部外部性进行建模。然而,它仅考虑了拍卖中的集合级上下文,而忽略了广告的顺序和展示位置,这仍然不是最优的。尽管基于维克里 - 克拉克 - 格罗夫斯(VCG)的多槽拍卖(如VCG、加权VCG(WVCG))使得对全局外部性(如广告的顺序和位置等)进行建模在理论上成为可能,但它们缺乏对收入和社会福利的有效平衡。

在本文中,我们提出了名为神经多槽拍卖(NMA)的新型拍卖机制,以应对上述挑战。具体而言,我们使用上下文感知列表式预测模块对全局外部性进行有效建模,以实现更好的性能。我们设计了一个列表式深度排名模块,以保证端到端学习中的激励兼容性。此外,我们提出了一个社会福利辅助损失,以在最大化收入的同时有效地减少社会福利的下降。在离线大规模数据集和在线A/B测试中的实验结果表明,NMA在工业实践中比其他现有拍卖机制(即GSP、DNA、WVCG)获得了更高的收入,同时平衡了社会福利,并且我们已成功将NMA部署在美团外卖平台上。

Contextual Generative Auction with Permutation-level Externalities for Online Advertising

  1. 研究背景
    • 在线广告的重要性与拍卖机制:在线广告是互联网行业的核心收入来源,广告拍卖在确保平台收入和激励广告商方面起着关键作用。传统拍卖机制如GSP存在局限性,其独立CTR假设忽略了其他展示广告的影响,即外部性。
    • 学习型拍卖的进展与局限:学习型拍卖如Deep Neural Auction(DNA)和Score Weighted VCG(SW-VCG)虽能更好地捕捉外部性,但受“分配后预测”设计范式限制,仅考虑候选广告集内的外部性(集合级外部性),未考虑最终分配中影响每个广告CTR的顺序上下文(排列级外部性),导致分配非最优。
  2. 方法设计
    • 理论基础与问题建模
      • 多槽拍卖与排列级外部性:将在线广告拍卖抽象为多槽拍卖问题,考虑广告商出价、广告特征、用户特征等因素,定义分配规则和支付规则。引入排列级外部性,即广告的CTR受其他展示广告影响,且不同排列会导致外部影响的差异。
      • 最优多槽拍卖:基于Myerson拍卖理论,推导适应排列级外部性的最优拍卖机制,证明在满足一定条件下,该机制能最大化平台预期收入并满足激励兼容性(IC)和个体理性(IR)约束。
      • 拍卖设计为学习问题:由于直接实现最优分配规则计算复杂,将拍卖机制参数化,通过学习确定参数。引入事后遗憾(ex-post regret)概念,以量化广告商偏离IC条件的程度,将拍卖设计问题转化为最小化预期负收入并满足事后遗憾为零的约束优化问题。
    • CGA框架设计
      • 生成器(Generator):采用自回归生成模块,包括排列不变集级编码器和排列等变自回归解码器。编码器通过自注意力层和求和池化增强广告表示,解码器基于上下文嵌入学习条件概率,以生成最大化预期虚拟福利的广告序列。
      • 评估器(Evaluator):预测每个广告的排列感知CTR,通过对广告序列嵌入进行双向LSTM和多头自注意力编码,结合预测阶段的逐点CTR,估计个性化外部性感知校准向量,与逐点CTR元素相乘得到排列感知CTR。
      • 支付计算(Payment Computation):受神经网络在多物品拍卖中有效近似最优机制的启发,引入PaymentNet学习最优支付规则。PaymentNet的输入包括分配嵌入、自排除出价配置文件和预期价值配置文件,通过sigmoidal激活函数计算支付率,以满足IR约束并输出支付。
    • 优化与训练
      • G-E框架优化:先训练Evaluator至收敛,然后冻结其参数,使用Evaluator估计的排列感知奖励通过策略梯度训练Generator,以最大化虚拟福利。
      • PaymentNet优化:在Generator和Evaluator收敛后,冻结它们的参数,应用增广拉格朗日方法解决约束优化问题,优化PaymentNet,尽管问题非凸,但实验表明优化后的CGA能接近最优收入且遗憾极小。
  3. 实验验证
    • 实验设置
      • 数据集:使用来自淘宝的真实日志数据,包括训练集和测试集,每个样本涉及多个广告商竞争广告槽位,实验设置广告槽位数为3。
      • 基线方法:对比GSP、DNA、SW-VCG、VCG Auction with Permutation-level Externalities(VCG)、EdgeNet和Optimal等方法,根据外部性建模粒度分类。
      • 性能指标:考虑每千次展示收入(RPM)、点击率(CTR)和IC度量(衡量广告商操纵出价可获得的效用相对增加)。
      • 实现细节:设置CGA的特征嵌入大小、注意力机制、隐藏层大小等参数,通过Adam优化器训练,学习型基线方法通过网格搜索调优超参数。
    • 离线比较结果
      • CGA在平台收入(RPM)和CTR方面优于现有方法,且事后遗憾较低,表明CGA能有效近似最优拍卖机制。
      • 随着外部性建模从无到集合级再到排列级的改进,拍卖性能在三个指标上均有提升,突出了精细建模外部性在拍卖设计中的重要性。
    • 消融研究
      • CGA的各设计考虑有效,去除Evaluator或改变训练方式会导致性能下降,证明了G-E框架、外部奖励建模和虚拟价值使用的重要性。
      • 去除价值分布对CGA性能影响较小,可能是因为CGA对外部性的建模通过捕捉广告间相关性,部分反映了缺失的价值分布信息。
    • 在线A/B测试结果
      • CGA在淘宝广告系统的在线A/B测试中表现良好,与DNA相比,RPM提升3.2%,平均响应时间仅增加3ms(相对增加1.6%),同时提高了广告商的投资回报率(ROI)、CTR和商品交易总额(GMV),表明CGA能通过生成模型有效探索分配空间,提升平台收入。
  4. 研究结论
    • 提出CGA框架,用于在线多槽广告拍卖中考虑排列级外部性,理论上证明了经典Myerson拍卖在适应排列级外部性时的最优性,为CGA框架设计提供依据。
    • CGA通过自回归生成模型和G-E学习范式优化分配,通过量化IC约束为预期事后遗憾学习最优支付规则,经离线和在线实验验证有效。
    • 未来研究将扩展上下文生成机制,以整合来自不同渠道的异构项目。
      alt text
      alt text
      alt text
      alt text
      alt text
      alt text
      使用真实监督信号的方式虽然简单直接,但是此类方法只考虑了初始排序这一种排列方式上的物品间关系和用户反馈。假设有序列中有n个物品,其余n!-1种排列方式都被模型忽略,不利于寻找最优排序。
      refer

基于listwise模型的rerank的实现方法。而在listwise模型中根据做法的不同又可以分为序列生成式、基于序列表征pointwise式、半生成式、两段式和强化学习等几种不同的方案。

model方法

基于序列表征,pointwise打分

这一大类有一个共同的特点,都是以上层精排的输出序列作为输入,在模型结构上借助RNN等序列结构来引入item序列之间的影响。进一步的通过attention的方式来捕捉item之间的相互影响。典型的如DLCM模型。而在阿里的PRM中进一步地将用户的个性化向量通过和item结合的方式引入模型中。这些模型第二个共同特点是最终线上对item的打分还是pointwise的,直接输出序列中每个item的分数,根据分数从高到低排序。

DLCM

alt text
refer
DLCM模型主要包含3个步骤:

  1. 使用传统的LTR模型检索Top N个doc,具体做法将查询-文档对 $(q,d)$ 转化特征向量 $\mathbf{x}_{(q,d)}$,然后使用全局排序函数 $f$ 计算查询 $q$ 的Top N个doc的列表 $R_q^n$

  2. 使用GRU对Top N个doc的特征向量 $\mathbf{x}_{(q,d)}$ 进行编码,从低位置到高位置,一步一步地输入进GRU中,最终产生一个隐向量 $s_n$ 和n个隐层输出 $o_i$, $i \in [1,n]$。这个局部模型被称为local context model - $I(R_q,X_q)$,输出被称为local ranking context

  3. 该步为对Top N个doc进行重排序,使用的是local ranking function (局部排序函数) $\phi$,并且该函数的输入为 $s_n$ 和 $o$

PRM

alt text

  • 用transformer来克服RNN距离遗忘的问题,从而显式建模item之间的相互影响
  • 在transformer中加入用户兴趣的建模 (Transformer equipped with personalized embedding)
  • 其中个性化LTR Loss形式:

$$\mathcal{L} = \sum_{r\in\mathcal{R}} \ell({y_i, P(y_i|X,PV;\hat{\theta})|i\in\mathcal{S}_r})$$

PV矩阵会和输入模型的初始item特征矩阵拼接,PV矩阵由预训练模型(CTR预估模型)产生

Challenges

  • 重排序后的评分困难:无法为每个反事实列表获取反馈
  • 指数级时间复杂度:组合优化问题,存在n!种可行排列

评估生成范式

  • 评估器(Evaluator):Evaluate listwise utility
  • 生成器(Generator):Generate feasible permutations

SetRank

序列生成

上面的那些方法都是基于预估分数重排,而下面的这些方法主要利用 RNN 直接生成重排序。

seq2slate

考虑了前序信息,通过 RNN 来提取前序信息,再通过 pointer network 来从输入商品列表中一步步地生成最终推荐列表。训练时采用 REINFORCE 算法去训练,并且用的是监督式的方法去训练。
ptrnet:比如求第一个位置,就和encoder部分的都求一遍权重,和第一个关系最大,就输出1,没有词汇表,输出从输入里面选

alt text

GRN

Two-Stage

SetToSeq

PIER

alt text

RL

从action space的角度出发,基于RL的混排模型可以分为以下两类:

离散action space

  • 以不同类型结果的mix pattern为action space
  • 代表工作: Cross DQN: Cross Deep Q Network for Ads Allocation in Feed
  • 实现方式:
    • 每种内容的结果经过精排后形成内部有序队列,如:
      • A=(a1,a2,a3,a4)
      • B=(b1,b2,b3,b4)
      • C=(c1,c2,c3,c4)
    • RL model的action space是不同类型内容的混排pattern
    • 每种混排结果对应一种结果类型的mix pattern
    • 示例:mix pattern = AABCB,输出mix list=a1-a2-b1-c1-b2
    • action space size = x^N (x为结果类型数,N为混排list长度)
    • state包含user side info和当前各队列候选list等context
    • 特例:某些场景需要决定是否在首位透出广告/直播,此时action space简化为透出/不透出

连续action space

  • 以多目标融合公式的加权系数作为action space
  • 代表工作: Multi-Task Fusion via Reinforcement Learning for Long-Term User Satisfaction in Recommender Systems
  • 实现方式:
    • 精排后每种内容的混排分由统一的多目标融合公式给出
    • 示例:mix_score = w1 * ctr + w2 * wtr + w3 * ltr
    • RL学习个性化权重wi
    • 采用non-Deterministic Policy Gradient时,w由学习的均值mu和方差sigma决定
    • state包含user side和context信息

三、方案比较

  1. A方案(离散action space)特点:

    • 一般采用double-DQN等模型
    • action space不宜过大(需要对离散空间取max)
    • 便于控制不同类型结果比例
    • 适合流量调控(根据mix pattern修正reward)
  2. B方案(连续action space)特点:

    • 基于多目标融合公式进行混排
    • RL用于动态调整系数,实现个性化
    • 需要处理不同内容pxtr的量纲不一致问题
    • non-Deterministic Policy的方差可提供探索能力

京东

refer
基于强化学习的序列优化
alt text

alt text
序列生成和评估模型结构包含两个主要部分:

  1. 序列评估模型
  • 底层进行特征抽取,使用Point DNN结构对每个item单独抽取特征
  • Point DNN将稀疏的embedding转化为dense feature,得到item的特征向量
  • 在序列评估模型中,将序列对应的向量抽取组成序列
  • 对序列进行attention操作,突出最相关的特征
  • 输出每个item的预估点击率,与出价、多样性等业务指标融合得到最终得分
  1. 序列生成模型
  • 输入:将整个候选集合作为生成模型的输入
  • 特征处理:
    • 对候选集中所有item特征做max pooling得到候选集合的特征向量
    • 将集合特征向量与每个item的特征向量拼接得到新特征
    • 新特征经过多层DNN处理得到概率矩阵

如图举例,假设一共有五个item,序列长度是四。如上图左上的表格,按行来看表示的是每一个item出现在当前这个位置的概率,按列来看表示的是item出现在不同位置的概率。模型训练使用2D softmax的交叉熵loss。如果一个item在候选集里被选中了,并且是出现在第一个位置,它的第一个位置的label就是1。如图,SKU1在第一个位置label是1,SKU2在第三个位置label是1。训练完成的模型在线上预测过程中预测采样频率,用一个受控的temperature参数来控制这个采样频率。按照这个表去生成序列,逐个位置去采样多次生成多个序列。举例来说,生成第一个位置需要的SKU,类似扔一个骰子,如果小于0.9,SKU1被选中,如果是0.9到1,SKU2被选中。第二个位置去除第一个位置已经出现过的SKU,进行重新归一化,再采样一次,这样可以生成多个候选序列。再把这些候选序列与启发式的或者随机生成的序列融合起来,变成一个序列的候选集,统一交给序列的评估模型去评估,选出一个最好的序列。

美团

(页面级序列建模)Deep Page-Level Interest Network in Reinforcement Learning for Ads Allocation.

Accepted by SIGIR2022
alt text

(多通道建模)Cross DQN: Cross Deep Q Network for Ads Allocation in Feed

alt text

Reinforcement Learning to Rank with Pairwise Policy Gradient

这篇论文关注的是信息检索(IR)中的文档排序模型的强化学习(RL)。其中一个分支的方法是将排序过程形式化为马尔可夫决策过程(MDP),并通过策略梯度来确定模型参数。尽管这些方法已经取得了一些初步的成功,但它们仍未完全实现其潜力。现有的策略梯度方法直接使用采样文档列表的绝对性能分数(回报)在其梯度估计中,这可能导致两个限制:1) 无法反映同一查询内文档之间的相对优劣,而这通常与信息检索排序的本质更接近;2) 产生高方差的梯度估计,导致学习速度慢和排序准确性低。为了解决这些问题,本文提出了一种新的策略梯度算法,即成对策略梯度(Pairwise Policy Gradient, PPG),该算法使用同一查询下采样的两个文档列表进行成对比较来确定梯度。PPG算法重复采样文档列表对,通过成对比较估计梯度,并最终更新模型参数。理论分析表明,PPG能够做出无偏且低方差的梯度估计。实验结果也证明了在搜索结果多样化和文本检索方面,相比现有最先进基线方法,PPG有显著的性能提升。

个性化

Multi-Level Interaction Reranking with User Behavior History

该研究关注的是多阶段推荐系统(MRS)的最终阶段——重排序(reranking),其直接关系到用户的体验和满意度,在MRS中扮演着关键角色。尽管现有工作已经取得了一定的进步,但仍有三个问题尚未得到解决:

  1. 用户历史行为中的偏好信息未被充分利用:用户的历史行为包含丰富的偏好信息,例如用户的长期和短期兴趣,但在重排序过程中并未被充分挖掘。以往的工作通常将历史记录中的项目视为同等重要,忽略了历史与候选项目之间的动态交互。
  2. 现有的重排序模型主要关注项目级别的交互,而忽略了特征级别的细粒度交互:这导致了对项目之间细微影响的捕捉不足,从而影响了重排序的效果。
  3. 在重排序前对初始有序列表进行评分可能导致过早评分问题:这种做法可能会产生次优的重排序性能,因为评分是在固定顺序下进行的,未能充分考虑到不同排列可能带来的不同效果。

为了解决上述问题,本文提出了一种名为多层次交互重排序(Multi-level Interaction Reranking, MIR)的框架。MIR结合了低级别的跨项目交互和高级别的集到列表交互,其中将待重排序的候选项目视为一个集合,而将用户按时间顺序的行为历史视为一个列表。我们设计了一个新颖的SLAttention结构来建模集到列表的交互,并融合个性化长短期兴趣。此外,为了捕捉项目之间的细粒度影响,我们还引入了特征级别的交互。MIR的设计确保了输入项目的任何排列不会改变输出排名,这一点我们在理论上也进行了证明。

具体模型

PRM具体模型

4.2 Input Layer (输入层)

  • **Personalized Vector (PV)**:个性化向量

    • 尽管精排队列给出的列表已经有部分个性化结果了,但对于整个用户的个性化结果来说,还不够
    • 本文拼接原始的特征向量X与用户个性化的向量PV(图1b),从而重排阶段引入用户个性化
  • **Position Embedding (PE)**:位置向量

    • 为了利用精排队列中的items的序列信息,本文引入位置编码向量PE(可学习)
    • 使用方式与[X;PV]+PE
    • 在输入向量之后使用FFN进行编码与维度转换,得到图1b中输入层最后的e

4.3 Encoding Layer(编码层)

  • 编码层目的是学习items对与额外信息(用户偏好、items初始列表)之间的交互(图1a)
  • 本文使用N层Transformer进行编码,主要考虑到了:
    • TRM的并行
    • self-attention不会依赖item之间的距离等因素
  • 从图1a可以看出,本文使用的Transformer block与原论文基本一致,也是用到了Multi-head Self-Attention,FFN等结构

4.4 Output Layer(输出层)

  • 输出层目标是为每个item打出一个重排得分
  • 此处最终使用softmax函数进行输出
  • 输出结果为点击每个item的概率
  • 训练模型时,本文使用点击相关数据完成训练,最终损失函数为交叉熵
    $$\mathcal{L} = \sum_{r\in\mathcal{R}} \ell({y_i, P(y_i|X,PV;\hat{\theta})|i\in\mathcal{S}_r})$$

4.5 Personalized Module(个性化模块)

  • 直观来说,可以直接用PRM来端到端学习用户个性化向量PV
  • 然而在重排阶段学习PV,缺少了用户的通用偏好信息
  • 因此本文使用预训练模型生成用户个性化向量(图1c)
    • 输入为用户的点击序列items(H),当前item与用户user的信息(性别、年龄、购买力等)
    • 训练数据仍然使用点击数据
    • 损失函数为二分类交叉熵
    • 最终取sigmoid之前层网络的输出结果作为用户个性化向量PV
  • 由于是CTR任务,作者也建议使用FM、FFM、DeepFM、DCN、FFN、PNN等用来学习PV

An efficient multi-item dynamic auction with budget constrained bidders

摘要

拍卖人出售多个不可分割物品给潜在投标人,投标人有估值但可能受预算约束,瓦尔拉斯均衡可能不存在。本文提出新颖动态拍卖,能找到核心分配,其包含物品分配与支持价格向量,可实现帕累托效率且对联盟偏离威胁有鲁棒性,拍卖中价格过高时可降低。

要点

  1. 模型构建
    • 包含卖家和多个潜在投标人,卖家有不可分割物品,投标人对物品有估值和预算,且预算为私有信息,定义了相关概念如价格向量、分配、瓦尔拉斯均衡等,还阐述了核心和严格核心概念及性质。
  2. 动态拍卖机制
    • 投标人提交出价,拍卖人据出价选分配和价格,投标人再更新出价,重复至无人更新。该拍卖与其他拍卖相比有独特之处,如价格调整灵活、允许降出价等。
    • 证明了拍卖在有限轮终止,且终止时结果为核心分配,在无预算约束时为严格核心分配且分配完全有效。

实验方法

通过理论分析和举例说明的方式,如在阐述模型时举了多个例子说明不同情况下的市场均衡和核心分配情况,在证明拍卖相关性质时运用了数学推导和逻辑推理。

AuctionNet: A Novel Benchmark for Decision-Making in Large-Scale Games

  1. 摘要:决策制定在大规模游戏中是人工智能的重要研究领域,本文提出AuctionNet基准,用于大规模广告拍卖中的出价决策。它由广告拍卖环境、预生成数据集和基线出价决策算法性能评估三部分组成。环境通过多个模块交互复制真实拍卖的完整性和复杂性,数据集包含众多代理竞争轨迹,还评估了多种基线算法性能,该基准已应用于NeurIPS 2024竞赛。
  2. 要点
    • 决策问题:关注广告拍卖中的自动出价问题,用部分可观测随机博弈(POSG)公式化问题,优化目标是在预算约束下最大化价值。
    • 广告拍卖环境:包含广告机会生成、出价和拍卖等模块。广告机会生成模块用深度生成模型生成数据,降低与现实差距并避免敏感数据暴露;出价模块模拟广告主竞争,实现多种算法;拍卖模块基于经典GSP拍卖,支持多种规则和多广告位特性。
    • 预生成数据集:基于环境生成,包含大量广告剧集、机会和记录,可用于深入了解拍卖生态,分析印象值随时间变化及不同类别关系。
    • 基线算法评估:评估了线性规划、强化学习和生成模型等基线算法性能,如Online LP表现较好,IQL和BC等有优化潜力。
  3. 实验方法
    • 环境构建与交互:将广告机会按时间划分决策步骤,代理依次出价,环境提供最终性能,通过多个模块交互实现真实拍卖模拟。
    • 数据集生成与分析:使用深度生成模型生成数据,通过PCA可视化、分析价值分布和字段连接等方式验证生成数据与真实数据的相似性,生成的数据集用于分析不同类别印象值变化及关系。
    • 算法评估:在基本任务和目标CPA任务中评估基线算法,比较不同算法性能,未对方法针对自动出价任务进行特殊优化。

Reinforcement Mechanism Design: With Applications to Dynamic Pricing in Sponsored Search Auctions

摘要

在赞助搜索中,标准机制是广义第二价格(GSP)拍卖,但存在非收入最优问题。本文研究个体和组织互动的社会系统,以赞助搜索拍卖为背景,结合机制设计和人工智能工具解决搜索引擎动态定价问题。通过训练买家行为模型,将动态定价问题建模为马尔可夫决策过程(MDP),应用强化学习算法优化储备价格,实验表明该模型优于多种静态和动态优化策略。

  1. 研究背景
    • 赞助搜索拍卖现状:在线销售广告是搜索引擎公司的盈利模式,如谷歌和百度。用户搜索时,搜索引擎展示广告,广告商竞价竞争位置,按点击付费。常见的广义第二价格(GSP)拍卖机制存在收入非最优问题,且多数收入优化理论基于竞标者理性行为假设,但实际中该假设常不成立。
    • 相关研究不足:新兴研究关注竞标者使用学习算法的情况,但多数模型未详细描述竞标者实际行为,难以捕捉异质竞标者群体的不同理性水平。
  2. 研究方法
    • 强化机制设计:提出混合方法,结合机制设计理论和机器学习技术。先依据机制设计理论用参数描述机制,再用优化算法寻找最优参数;同时用机器学习算法构建精确的竞标者行为模型,将机制参数作为输入,考虑机器学习和战略竞标者行为。
    • 构建竞标者行为模型
      • RNN模型:基于循环神经网络(RNN)构建,输入包括连续m天的关键绩效指标(KPI)、竞标者的出价分布及日期相关特征。RNN输出经全连接层和softmax激活函数转换为有效概率分布。为简化出价分布表示,将其离散为100维向量。KPI统计数据取对数并用tile - coding编码,以捕捉竞标者对相对变化的关注。同时包含公共特征集,如日期相关特征,因多数广告商有季节性广告活动。
      • 数学表述为马尔可夫模型:采用时间齐次马尔可夫模型解释RNN - 基于竞标者行为模型,即竞标者下一时间步的出价分布是前m个时间步出价分布和KPI的函数,该模型符合文献及百度实际观察。
    • 强化机制设计框架
      • 问题表述为MDP:将动态机制设计问题表述为马尔可夫决策过程(MDP),其中竞标者出价分布为状态,储备价格为行动。目标是选择一系列储备价格配置文件以最大化贴现收入总和。
      • 优化算法:虽存在最优储备定价方案,但精确计算成本高。通过限制关注少数主要竞标者的关键词及仅探索当前储备价格小邻域内的行动来降低计算复杂度,并采用蒙特卡洛树搜索(MCTS)算法,通过限制搜索深度和搜索轨迹数量有效控制计算复杂性。
  3. 实验设计与结果
    • 实验设置:选择400个具有特定属性(日查询量大且稳定、大部分收入由最多3个竞标者贡献)的关键词,提取8个月的竞价数据(超70TB)。对每个关键词关注3个主要竞标者,为其构建LSTM网络,设置时间步为1天,用90%数据训练,10%测试,以平均交叉熵为性能指标,用ADAM优化器优化。MCTS算法中探索储备价格为当前储备价格的0.95、1.0和1.05倍,设置相关参数如λ = 0.8、搜索深度为5等。
    • 结果分析
      • 策略比较:动态策略(MCTS)优于所有静态策略(如STATIC OPT、BAIDU、STATIC 50)及动态策略(GREEDY和POLICY GRAD)。BAIDU曲线快速收敛;STATIC OPT曲线先升后降;之前百度在线实验表明STATIC OPT短期内收入高但长期下降,与模拟结果相符,证明竞标者行为模型准确性。激进定价方案短期内收入高但长期下降,因竞标者对储备价格变化作出反应。GREEDY和POLICY GRAD算法表现良好,虽稍逊于MCTS但更简单、计算成本低,表明竞标者可能不太具战略性。
      • 储备价格更新频率影响:MCTS算法中,更新储备价格频率越低(Δt越大),收入越高且收敛越快。GREEDY算法性能与Δt = 3时的MCTS算法几乎相同。
  4. 研究结论
    • 提出结合机制设计和人工智能技术的动态定价框架,不依赖多数理论分析中的不现实假设,采用数据驱动方法解决理论市场设计问题。
    • 框架包含竞标者行为模型(RNN)和优化算法(MCTS),迭代寻找最优机制参数,通过模拟拍卖估计未来目标。
    • 在中国主要搜索引擎百度的真实竞价数据实验中,该框架显著提高收入,已被百度采用并证明能增加收入。

A dynamic auction for multi-object procurement under a hard budget constraint

摘要

本论文重新审视了政府机构分配研发补贴的问题。通常,申请人的财务约束属于私人信息。已有文献建议采用拍卖方式,以减少信息租金,从而提高稀缺公共资金的分配效率。针对这一采购问题,我们提出了一种新的开放式时钟拍卖。这种拍卖在战略上较为简单,因为它在占优策略中体现了说实话的特性,并且在遵守预算约束的同时满足事后理性。我们通过蒙特卡洛模拟对该拍卖进行了测试,并讨论了其适用性和局限性。此外,我们还强调了与计算机科学最新进展的联系。

  1. 研究背景
    • 创新与市场失灵:创新存在市场失灵特性,如不可分割性、不可占有性和不确定性,私人企业研发投资常非社会最优,政府采用多种政策工具干预,其中直接补贴私人研发尤为重要,如美国小企业创新研究计划(SBIR)。
    • 补贴效果与问题:公共研发资金对社会有益,有直接资助和“光晕”或信号效应等好处,但现有补贴分配实践存在问题,如未充分考虑项目性价比,可能导致资金浪费,同时政府政策可能受游说或政治压力扭曲。
  2. 模型构建
    • 参与者与物品:政府机构为“买家”,申请人为“卖家”,卖家有不可分割物品(研究提案),有私知保留价格(\theta_{i}),提交财务出价(b_{i}),买家有固定预算(B)。
    • 质量等级与权重:为评估买家效用,给每个申请人项目设定质量等级及相对权重(如A项目权重1,B项目0.7等),资金决策基于这些等级,实际质量在决策时不确定。
    • 买家效用与目标:买家目标是在预算约束下最大化采购物品总质量,效用函数为(u_{buyer}(\mathcal{A})=\sum_{j \in \mathcal{A}} w_{j}=\sum_{i \in \mathcal{I}} q_{i} w_{i}, q_{i} \in{0,1}),完全信息下的最优分配是解决相关二进制背包问题。
  3. 拍卖机制
    • 初始设置:申请人给定财务起始出价(\bar{b}{i})(如当前补贴或匹配赠款),起始出价除以质量得到初始价格质量比(\bar{r}{i})。
    • 拍卖过程:采用开放递减时钟拍卖,时钟从最高初始价格质量比开始倒计时,投标人可随时退出且不能再进入。只要活跃投标人财务出价总和超预算,倒计时继续,直到预算能容纳剩余活跃出价或正好耗尽预算时拍卖结束。
    • 支付与结果:输家保留物品无支付,赢家根据拍卖结束方式获得支付(若因退出结束,支付由退出者最终价格质量比决定;若因耗尽预算结束,支付用完预算)。该机制中,说实话是占优策略,满足预算约束且事后个体理性。
  4. 模拟分析
    • 模拟设置:通过蒙特卡洛模拟,假设卖家采用占优策略均衡,对模型参数做多种假设,随机抽取储备价格和信息租金,比较动态拍卖(DA)与最优分配(FB)和现状分配(SQ)。
    • 模拟结果
      • 信息租金影响:DA旨在减少信息租金,在无信息租金时,DA近似FB且优于SQ;信息租金越大,DA相对SQ优势越明显。
      • 福利权重影响:B和C项目福利权重越高,SQ分配误差越大,因SQ过于重视A项目,而DA分配规则能适应福利权重变化。
      • 预算规模影响:预算增加时,SQ和DA性能都提升,但SQ对预算变化更敏感。
      • 储备价格分布影响:多数情况下,储备价格分布假设对SQ和DA相对性能影响不大,DA性能相对稳定,集中在FB的70 - 75%,而SQ在某些情况下性能较差。总体而言,DA对参数变化不太敏感,跟踪误差主要源于信息租金,SQ则因基本分配误差对假设变化敏感。
  5. 讨论与结论
    • 适用性与局限性:论文基于前人对研发补贴分配的研究,改进拍卖设计简化战略问题,提供稳健预测。假设虽合理但现实中可能被违反,如引入拍卖可能改变申请人行为,导致项目性质、成本超支和作弊风险变化;模型假设项目为完美替代品可能扭曲分配,但偏离该假设会使评估和拍卖难以实施;改变补贴分配方式可能影响高质量申请人数量,但平均质量下降可能仍意味着福利改进;理论上更多参与者应改善拍卖分配,但实践中需平衡项目数量与政策目标及项目启动延迟问题;光环或认证效应使拍卖更理想,但可能降低补贴项目平均质量。
    • 实施与建议:实施拍卖需程序管理选择质量等级和福利权重,申请人准备提案并确定储备价格,拍卖实施相对简单且能增加资金决策透明度。使用拍卖的利弊因具体情况而异,需在现实中测试并评估效果,机制适用性取决于创新类型、目标群体和政策目标等因素,理论结果也可能适用于研发资金以外场景。

Spending Programmed Bidding: Privacy-friendly Bid Optimization with ROI Constraint in Online Advertising

摘要

隐私政策使得实时且精确的用户数据无法追踪,这扰乱了价值数十亿美元的在线广告市场,给在线广告行业中受投资回报率(ROI)约束的产品优化带来了重大挑战。隐私保护策略,包括事件聚合和报告延迟,阻碍了对详细和即时反馈数据的获取,从而使传统的身份揭示归因技术无法发挥作用。在本文中,我们引入了一种新颖的支出程序化出价(SPB)框架来应对这些挑战。SPB是一个两阶段框架,将长期投放支出规划(宏观阶段)和短期出价执行(微观阶段)分开。宏观阶段对目标ROI进行建模以实现最大效用并得出预期支出,而微观阶段则在给定预期支出的情况下优化出价价格。我们进一步将我们的框架扩展到跨渠道场景,在该场景中,代理在受隐私约束和身份揭示归因渠道中进行出价。我们发现,当存在受隐私约束的渠道时,SPB在离线数据集和大型广告平台的在线实验中均优于最先进的出价方法。
“Spending Programmed Bidding: Privacy-friendly Bid Optimization with ROI Constraint in Online Advertising”由Yumin Su、Min Xiang等人撰写,提出了一种创新的在线广告出价框架Spending Programmed Bidding (SPB),以解决隐私保护下ROI约束的出价优化问题。

  1. 研究背景
    • 隐私政策影响广告效果:隐私政策使实时精准用户数据难以追踪,影响在线广告的ROI优化。如苹果的PCM和SKAN策略虽保护隐私,但存在事件聚合和报告延迟问题,影响广告投放和效果评估。
    • 现有方法的局限性:传统身份揭示方法受隐私约束,在解决报告延迟、依赖实时数据等问题上存在局限,如CVR预测模型、PID、MPC和RL等方法在隐私场景中效果不佳。
  2. 研究方法
    • 问题定义与数学表示:基于在线随机背包问题定义,目标是在ROI和花费约束下最大化GMV,给出了相关数学公式和符号定义。
    • 隐私场景挑战:隐私政策导致拍卖中(c_i)和(wp_i)获取困难,使问题面临粗粒度、滞后性和随机性挑战,影响传统优化方法和实时反馈控制方法的适用性。
    • SPB框架
      • 两阶段分解:将在线出价过程分为宏观和微观阶段。宏观阶段根据长期数据规划最优花费(S^{(opt)}),微观阶段基于(S^{(opt)})生成实时出价价格,有效应对隐私场景挑战。
      • 阈值算法(THRESHOLD):一种贪婪算法,在特定条件下可近似解决问题,通过确定阈值(R_{thr})计算最优出价,SPB算法对其改进以适应隐私场景。
      • 宏观花费规划:通过探索最优GMV和最优ROI的关系,构建函数关系计算最优花费,利用长期累积数据应对隐私挑战,通过多日数据聚合和拟合确定函数参数。
      • 微观出价优化:在宏观确定总体最优花费基础上,通过预算分配获得短期最优花费,利用IMPC方法构建(R_{thr})和花费(P_S)的线性插值模型计算最优出价,具有无累积误差、无需先验函数分布、稳健便携等优点。
      • 多渠道推广:将SPB扩展到多渠道场景,宏观部分联合求解各渠道最优花费,微观部分独立应用IMPC算法计算出价,通过定理4确定各渠道(R_{thr})相等时整体(P_G)最大。
  3. 实验验证
    • 实验设置:使用TikTok广告平台工业数据集和模拟隐私数据集,定义预算拆分实验机制,介绍SPB方法设置。
    • 性能评估指标:根据ROI和花费利用率将广告活动分组,通过计算GMV和花费评估出价方法性能。
    • 对比出价方法:对比BidCap、MPC和SPB三种出价方法。
    • 实验结果
      • 在线实验:SPB在Accomplish组提高GMV和收入,在Violation组降低GMV和收入;在隐私约束场景表现良好,尤其在SKAN归因活动中;对ROI波动容忍度降低时,Violation组GMV比例增加较小,GMV分布更倾向于(R_{res}/R_{target}>1)。
      • 离线实验:SPB在Accomplish组增强GMV,在Violation组降低GMV;在不同延迟下,Accomplish组比例高且随延迟增加优势更明显,Violation组GMV比例增加缓慢;在离线环境中,GMV分布更集中于(R_{res}/R_{target}=1),能产生更多(R_{res}/R_{target}≥1.0)的GMV。
  4. 研究结论
    • 提出的SPB框架有效解决隐私保护下ROI约束的出价优化问题,在离线和在线实验中表现优于现有方法。
    • 未来将探索更隐私敏感的广告市场平衡。

KDD 2024 工业界搜广推(广告)工作整理

参考

Alibaba

生成式出价 | Generative Auto-bidding via Conditional Diffusion Modeling

利用条件扩散模型进行自动出价,提高在线广告的效率。

Jiayan Guo (Peking University, Alibaba Group); Yusen Huo (Alibaba Group); Zhilin Zhang (Alibaba Group); Tianyu Wang (Alibaba Group); Chuan Yu (Alibaba Group); Jian Xu (Alibaba Group); Bo Zheng (Alibaba Group); Yan Zhang (Peking University)

因果推断 | CURLS: Causal Rule Learning for Subgroups with Significant Treatment Effect

针对具有显著处理效应的子群体的因果规则学习。

Jiehui Zhou (State Key Lab of CAD&CG, Zhejiang University, DAMO Academy, Alibaba Group); Linxiao Yang (DAMO Academy, Alibaba Group); Xingyu Liu (State Key Lab of CAD&CG, Zhejiang University); Xinyue Gu (DAMO Academy, Alibaba Group); Liang Sun (DAMO Academy, Alibaba Group); Wei Chen (State Key Lab of CAD&CG, Zhejiang University)

合约广告 | Bi-Objective Contract Allocation for Guaranteed Delivery Advertising

合约广告的双目标合同分配问题。

an Li (Key Laboratory of System Software (Chinese Academy of Sciences) and State Key Laboratory of Computer Science, Institute of Software, Chinese Academy of Sciences, School of Computer Science and Technology, University of Chinese Academy of Sciences); Yundu Huang (Alibaba Group); Wuyang Mao (Alibaba Group); Furong Ye (Key Laboratory of System Software (Chinese Academy of Sciences) and State Key Laboratory of Computer Science, Institute of Software, Chinese Academy of Sciences); Xiang He (Key Laboratory of System Software (Chinese Academy of Sciences) and State Key Laboratory of Computer Science, Institute of Software, Chinese Academy of Sciences, School of Computer Science and Technology, University of Chinese Academy of Sciences); Zhonglin Zu (Alibaba Group); Shaowei Cai (Key Laboratory of System Software (Chinese Academy of Sciences) and State Key Laboratory of Computer Science, Institute of Software, Chinese Academy of Sciences, School of Computer Science and Technology, University of Chinese Academy of Sciences)

拍卖广告 | Truthful Bandit Mechanisms for Repeated Two-stage Ad Auctions

为重复两阶段广告拍卖设计真实性多臂老虎机机制。

Haoming Li (Shanghai Jiaotong University); Yumou Liu (The Chinese University of Hong Kong, Shenzhen); Zhenzhe Zheng (Shanghai Jiao Tong University); Zhilin Zhang (Alibaba Group); Jian Xu (Alibaba Group); Fan Wu (Shanghai Jiao Tong University)

Bytedance

出价 | Spending Programmed Bidding: Privacy-friendly Bid Optimization with ROI Constraint in Online Advertising

Yumin Su (ByteDance Inc.); Min Xiang (ByteDance Inc.); Yifei Chen (ByteDance Inc.); Yanbiao Li (ByteDance Inc.); Tian Qin (ByteDance Inc.); Hongyi Zhang (ByteDance Inc.); Yasong Li (ByteDance Inc.); Xiaobing Liu (ByteDance Inc.)

Tencent

排序增强的uplift | Rankability-enhanced Revenue Uplift Modeling Framework for Online Marketing

Bowei He (City University of Hong Kong); Yunpeng Weng (FiT, Tencent); Xing Tang (FiT, Tencent); Ziqiang Cui (City University of Hong Kong); Zexu Sun (Renmin University of China); Liang Chen (FiT, Tencent); Xiuqiang He (FiT, Tencent); Chen Ma (City University of Hong Kong)

Meituan

拍卖 | Joint Auction in the Online Advertising Market

Zhen Zhang (Gaoling School of Artificial Intelligence, Renmin University of China); Weian Li (School of Software, Shandong University); Yahui Lei (Meituan Inc.); Bingzhe Wang (Gaoling School of Artificial Intelligence, Renmin University of China); Zhicheng Zhang (Gaoling School of Artificial Intelligence, Renmin University of China); Qi Qi (Gaoling School of Artificial Intelligence, Renmin University of China); Qiang Liu (Meituan Inc.); Xingxing Wang (Meituan Inc.)

因果推断 | Decision Focused Causal Learning for Direct Counterfactual Marketing Optimization

Hao Zhou (State Key Laboratory for Novel Software Technology, Nanjing University, Meituan); Rongxiao Huang (State Key Laboratory for Novel Software Technology, Nanjing University); Shaoming Li (Meituan); Guibin Jiang (Meituan); Jiaqi Zheng (State Key Laboratory for Novel Software Technology, Nanjing University); Bing Cheng (Meituan); Wei Lin (Meituan)

Google

LLM用于拍卖 | Auctions with LLM Summaries

Avinava Dubey (Google Research); Zhe Feng (Google Research); Rahul Kidambi (Google Research); Aranyak Mehta (Google Research); Di Wang (Google Research)

Shopee

广告校准 | Deep Ensemble Shape Calibration: Multi-Field Post-hoc Calibration in Online Advertising

Shuai Yang (Shopee Discovery Ads); Hao Yang (Shopee Discovery Ads); Zhuang Zou (Shopee Discovery Ads); Linhe Xu (Shopee Discovery Ads); Shuo Yuan (Shopee Discovery Ads); Yifan Zeng (Shopee Discovery Ads)

Meta

离线强化学习出价 | Offline Reinforcement Learning for Optimizing Production Bidding Policies

Dmytro Korenkevych (AI at Meta); Frank Cheng (AI at Meta); Artsiom Balakir (AI at Meta); Alex Nikulkov (AI at Meta); Lingnan Gao (Meta Platform Inc.); Zhihao Cen (AI at Meta); Zuobing Xu (Meta Platform Inc.); Zheqing Zhu (AI at Meta)

1. 研究的问题:

这篇论文研究的问题是如何设计收入最大化的拍卖机制,特别是针对具有私人预算限制的环境中的拍卖。在这种环境下,竞拍者由于财务约束,无法支付超过他们预算的金额。论文探讨了即使在单一物品和两个竞拍者的情况下,带有私人预算约束的最优主导策略激励相容(DSIC)设计也是未知的。作者尝试使用深度学习方法来解决这个问题。

2. 研究的对象:

研究的对象是多物品拍卖环境中的私人预算约束,包括但不限于单一物品拍卖、多物品拍卖、具有附加价值的竞拍者和单位需求竞拍者的拍卖。这些拍卖场景中的竞拍者具有私人价值和预算限制,论文尝试设计出在这些约束下能够最大化预期收益的拍卖规则。

3. 使用的技术:

作者使用了深度学习技术,特别是神经网络来模拟拍卖规则,并使用机器学习进行最优拍卖的自动化设计。具体来说,他们扩展了RegretNet框架,以处理私人预算约束和贝叶斯激励相容性(BIC)。他们还使用了增强拉格朗日方法来解决基于样本的优化问题,并通过Adam优化器来逼近解决内层优化问题。此外,他们还使用了TensorFlow深度学习库进行实验,并采用了增强拉格朗日方法中的拉格朗日乘数更新技术来处理约束条件。

扩展RegretNet的部分

预算约束(Budget Constraints):

原始的RegretNet框架没有考虑预算约束。在这篇论文中,作者扩展了框架以包括预算约束,即确保拍卖机制不会让竞拍者支付超过其预算的金额。
这是通过在损失函数中加入预算约束(BC)罚分来实现的,以确保每个竞拍者的支付不超过其预算。
贝叶斯激励相容性(Bayesian Incentive Compatibility, BIC):

除了主导策略激励相容性(DSIC),作者还扩展了框架以支持BIC,这是一种在竞拍者类型分布未知的情况下的激励相容性。
在BIC拍卖中,竞拍者在报告自己的类型时,说真话是其最优策略,从期望上讲,相对于其他竞拍者的类型。
条件激励相容性(Conditional Incentive Compatibility):

作者还考虑了条件激励相容性,即竞拍者只能低估自己的预算,而不是高估。
这需要对RegretNet框架进行进一步的调整,以处理这种单向的激励约束。

公式变化:(3.1)

regret
原始RegretNet:
regret
现在的loss function:
regret
原始RegretNet:
regret
其实就是加上考虑了budget和IR,pay要小于budget,收益不能为负
regret

网络结构变化:

本文:
Budgeted RegretNet: (a) Allocation rule a and (b) Payment rule p for a setting withm distinct items and n unit-demand buyers.
regret
原始RegretNet:
regret
regret
其实就是输入的从只有bid变成value(可能不truthful)+budget

1.研究的问题 2. 研究的对象 3. 使用的技术。

AMD:

1.原版

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
@misc{conitzer2002complexitymechanismdesign,
title={Complexity of Mechanism Design},
author={Vincent Conitzer and Tuomas Sandholm},
year={2002},
eprint={cs/0205075},
archivePrefix={arXiv},
primaryClass={cs.GT},
url={https://arxiv.org/abs/cs/0205075},
}
@inproceedings{conitzer2004self,
title={Self-interested automated mechanism design and implications for optimal combinatorial auctions},
author={Conitzer, Vincent and Sandholm, Tuomas},
booktitle={Proceedings of the 5th ACM Conference on Electronic Commerce},
pages={132--141},
year={2004}
}
@inproceedings{sandholm2003automated,
title={Automated mechanism design: A new application area for search algorithms},
author={Sandholm, Tuomas},
booktitle={International Conference on Principles and Practice of Constraint Programming},
pages={19--36},
year={2003},
organization={Springer}
}
@article{sandholm2015automated,
title={Automated design of revenue-maximizing combinatorial auctions},
author={Sandholm, Tuomas and Likhodedov, Anton},
journal={Operations Research},
volume={63},
number={5},
pages={1000--1025},
year={2015},
publisher={INFORMS}
}

2.本文研究了在线广告平台中的两阶段拍卖架构,该架构用于在低延迟下向用户传递个性化广告。第一阶段从完整的广告池中高效选择一小部分有潜力的广告。第二阶段在子集中进行拍卖以确定展示的广告,使用第二阶段机器学习模型的点击率预测。研究了第一阶段子集选择策略的在线学习过程,并确保在重复的两阶段广告拍卖中具有博弈论属性。提出了一种新的实验设计,即“集群多重随机化设计”(cMRD),它在客户和搜索查询群集级别独立随机化,允许在单一实验中同时衡量定价变化的直接和间接效果。

1
2
3
4
5
6
7
@inproceedings{li2024truthful,
title={Truthful Bandit Mechanisms for Repeated Two-stage Ad Auctions},
author={Li, Haoming and Liu, Yumou and Zheng, Zhenzhe and Zhang, Zhilin and Xu, Jian and Wu, Fan},
booktitle={Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining},
pages={1565--1575},
year={2024}
}

3.regret的一坨

1
2
3
4
5
6
7
8
9
10
11
12
@article{dutting2024optimal,
title={Optimal auctions through deep learning: Advances in differentiable economics},
author={D{\"u}tting, Paul and Feng, Zhe and Narasimhan, Harikrishna and Parkes, David C and Ravindranath, Sai Srivatsa},
journal={Journal of the ACM},
volume={71},
number={1},
pages={1--53},
year={2024},
publisher={ACM New York, NY}
}


衍生

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
@inproceedings{duan2022context,
title={A context-integrated transformer-based neural network for auction design},
author={Duan, Zhijian and Tang, Jingwu and Yin, Yutong and Feng, Zhe and Yan, Xiang and Zaheer, Manzil and Deng, Xiaotie},
booktitle={International Conference on Machine Learning},
pages={5609--5626},
year={2022},
organization={PMLR}
}
@article{ivanov2022optimal,
title={Optimal-er auctions through attention},
author={Ivanov, Dmitry and Safiulin, Iskander and Filippov, Igor and Balabaeva, Ksenia},
journal={Advances in Neural Information Processing Systems},
volume={35},
pages={34734--34747},
year={2022}
}
  1. “[A Context-Integrated Transformer-Based Neural Network for Auction Design](A Context-Integrated Transformer-Based Neural Network for Auction Design | 一个田螺突然就 (2010727302.github.io))” 介绍了一种基于Transformer模型的神经网络,该网络能够整合上下文信息来设计拍卖机制。这种方法能够更好地适应动态变化的市场环境和参与者的多样性。

    introduces a neural network based on the Transformer model that integrates contextual information to design auction mechanisms. This approach better adapts to the dynamic market environment and the diversity of participants.

  2. “Optimal-er Auctions through Attention” 则专注于利用注意力机制来改进拍卖设计。通过关注关键的拍卖参数和参与者特征,该研究提出了一种能够自动调整拍卖规则以适应不同场景的算法。

    focuses on improving auction design using attention mechanisms. By focusing on key auction parameters and participant features, the study proposes an algorithm that can automatically adjust auction rules to fit different scenarios.

with constraints

1
2
3
4
5
6
7
@inproceedings{feng2018deep,
title={Deep learning for revenue-optimal auctions with budgets},
author={Feng, Zhe and Narasimhan, Harikrishna and Parkes, David C},
booktitle={Proceedings of the 17th international conference on autonomous agents and multiagent systems},
pages={354--362},
year={2018}
}

4.joint

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
@inproceedings{zhang2024joint,
title={Joint Auction in the Online Advertising Market},
author={Zhang, Zhen and Li, Weian and Lei, Yahui and Wang, Bingzhe and Zhang, Zhicheng and Qi, Qi and Liu, Qiang and Wang, Xingxing},
booktitle={Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining},
pages={4362--4373},
year={2024}
}
@article{aggarwal2024selling,
title={Selling joint ads: A regret minimization perspective},
author={Aggarwal, Gagan and Badanidiyuru, Ashwinkumar and D{\"u}tting, Paul and Fusco, Federico},
journal={arXiv preprint arXiv:2409.07819},
year={2024}
}
@inproceedings{ma2024joint,
title={Joint Bidding in Ad Auctions},
author={Ma, Yuchao and Li, Weian and Zhang, Wanzhi and Lei, Yahui and Zhang, Zhicheng and Qi, Qi and Liu, Qiang and Wang, Xingxing},
booktitle={Annual Conference on Theory and Applications of Models of Computation},
pages={344--354},
year={2024},
organization={Springer}
}

Selling joint ads: A regret minimization perspective

1. 研究的问题

这篇论文探讨的核心问题是设计一种收益最大化的激励相容机制,用于在线零售环境中的联合广告销售。具体来说,就是如何将一个广告位(例如)出售给两个不可排除的买家(例如,一个商家和一个品牌),这两个买家可能共同在拍卖中出价以推广一个产品,并且都从广告的展示中获益。该问题涉及到设计一个机制,该机制从两个买家那里收集出价,并决定是否分配广告位以及两个参与方应支付的金额。这个问题引出了复杂的激励相容性约束,例如,如何在两个参与方之间分配付款。

2. 研究的对象

研究对象是在线零售领域的广告销售机制,尤其是在涉及两个或多个买家共同对一个非排他性商品(如广告位)出价的场景。论文特别关注了那些在拍卖设计中产生的复杂问题,包括如何在不同的买家之间分割付款,以及如何确保拍卖机制既能最大化收益,又能满足激励相容性和个体理性的要求。

3. 使用的技术

论文采用了在线学习视角来解决寻找收益最大化激励相容机制的问题。作者提出了一种高效的学习算法,该算法基于自适应离散化机制空间的方法,因为任何非自适应离散化都无法实现次线性遗憾。在随机设置中(即代理的估值根据某些固定但未知的分布进行抽取),作者设计了一个有效的学习算法,实现了 (\tilde{O}(n^{3/4})) 的遗憾界限。而在对抗性设置中(即估值是预先任意生成的),作者利用问题的非Lipschitz性质来证明一个强有力的负面结果,即没有任何学习算法能够实现超过最佳固定机制收益的一半。

此外,论文还考虑了 (\pi)-平滑对手设置,即估值随机生成自平滑分布,但与随机情况不同,可以以非平稳方式进行。在这个设置中,作者构建了一个有效的学习算法,实现了 (\tilde{O}(n^{2/3})) 的遗憾界限,并基于对数数量级的专家进行简洁编码。最后,作者证明了在随机和平滑设置中,没有任何学习算法能够实现小于 (\Omega(\sqrt{n})) 的遗憾,从而缩小了这两种问题中最小最大遗憾率的范围。

1. Research Problem

The core issue explored in this paper is the design of a revenue-maximizing incentive-compatible mechanism for selling a non-excludable good, such as an advertisement slot, to two cooperative bidders (e.g., a merchant and a brand). This problem captures scenarios where two parties jointly bid in an auction and both benefit from the ad being displayed. The mechanism collects bids from both parties and decides on the allocation and payments. This gives rise to intricate incentive compatibility constraints, such as how to split payments between the two parties. The paper tackles the problem of finding a revenue-maximizing incentive-compatible mechanism from an online learning perspective, which poses significant technical challenges due to the large action space and the highly irregular function mapping mechanisms to revenue.

2. Research Object

The research object is the mechanism design for selling joint advertisements in the online retail sector, specifically focusing on scenarios where multiple bidders are involved in the bidding process for a single, non-excludable item. The paper is particularly concerned with the complexities that arise in auction design, including how to divide payments among different bidders and ensuring that the auction mechanism maximizes revenue while meeting the criteria for incentive compatibility and individual rationality.

3. Used Technology

The paper employs an online learning approach to address the challenge of identifying a revenue-maximizing incentive-compatible mechanism. The authors propose an efficient learning algorithm based on an adaptive discretization scheme of the mechanism space, as any non-adaptive discretization fails to achieve sublinear regret. In the stochastic setting, where agents’ valuations are drawn from a fixed but unknown distribution, the algorithm achieves a regret bound of (\tilde{O}(n^{3/4})). In the adversarial setting, where valuations are arbitrarily generated upfront, the authors exploit the non-Lipschitzness of the problem to prove a strong negative result, indicating that no learning algorithm can achieve more than half of the revenue of the best fixed mechanism in hindsight. They also consider the (\pi)-smooth adversary setting, where valuations are randomly generated from smooth distributions but can be non-stationary. In this setting, they construct an efficient learning algorithm that achieves a regret bound of (\tilde{O}(n^{2/3})) and is based on a succinct encoding of exponentially many experts. Finally, they prove that no learning algorithm can achieve less than (\Omega(\sqrt{n})) regret in both the stochastic and the smooth setting, thus narrowing the range where the minimax regret rates for these two problems lie.

中文版

研究的问题
这篇论文探讨的核心问题是如何设计一个激励相容的拍卖机制,以最大化拍卖人的预期收益。尽管理论上在单件物品拍卖中已有较为成熟的解决方案,但在多件物品拍卖中,如何设计最优拍卖机制仍然是一个挑战。近年来,深度学习方法在这方面取得了显著进展,但现有研究通常只关注固定数量的竞拍者和物品,或者将拍卖限制为对称形式。本研究通过将竞拍者和物品的公共上下文信息纳入拍卖学习框架,克服了这些限制。

研究的对象
研究对象是具有上下文信息的拍卖设计,即在拍卖中,每个竞拍者和物品都有相关的上下文信息。这些上下文信息能够在一定程度上描述不同的竞拍者和物品,使得拍卖更接近实际情况。例如,在电子商务广告中,有大量具有各种特征的竞拍者和物品(即广告位),每个拍卖都涉及不同数量的竞拍者和物品。

使用的技术
论文提出了CITransNet,这是一个基于上下文集成的Transformer神经网络,用于最优拍卖设计。CITransNet结合了出价信息、竞拍者上下文和物品上下文,开发拍卖机制。它建立在Transformer架构上,能够捕捉拍卖中不同竞拍者和物品之间复杂的相互影响。CITransNet在出价和上下文上保持排列等变性,即竞拍者(或物品)在出价信息和竞拍者上下文(或物品上下文)中的任何排列都会导致拍卖结果的相同排列。此外,CITransNet的参数数量不依赖于拍卖规模(即竞拍者和物品的数量),使其有潜力泛化到具有不同竞拍者或物品的各种拍卖中。

English Version

Research Problem:
The central problem explored in this paper is how to design an incentive-compatible auction mechanism to maximize the auctioneer’s expected revenue. Although theoretical approaches have provided optimal solutions for single-item auctions, designing optimal mechanisms for multi-item auctions remains a challenge. Recently, deep learning methods have made significant progress in this area, but existing studies typically focus on a fixed set of bidders and items or restrict auctions to be symmetric. This study overcomes these limitations by integrating public contextual information of bidders and items into the auction learning framework.

Research Object:
The research object is auction design with contextual information, where each bidder and item in the auction is equipped with relevant contextual information. This contextual information can describe different bidders and items to some extent, making the auctions closer to practical scenarios. For instance, in e-commerce advertising, there are a large number of bidders and items (i.e., ad slots) with various features, and each auction involves a different number of bidders and items.

Used Technology:
The paper proposes CITransNet, a Context-Integrated Transformer-based neural network for optimal auction design. CITransNet integrates bidding information, bidder contexts, and item contexts to develop an auction mechanism. It is built upon the Transformer architecture, capturing the complex interplay among different bidders and items in an auction. CITransNet maintains permutation-equivariance over bids and contexts, meaning any permutation of bidders (or items) in the bidding profile and bidder contexts (or item contexts) will cause the same permutation of auction results. Moreover, the number of parameters in CITransNet does not depend on the scale of the auction (i.e., the number of bidders and items), giving CITransNet the potential to generalize to auctions with various bidders or items.

0%