LCRON

发表于 2025-12-21 更新于 2025-12-22 分类于 research ， prerank

参考

$\prod_{i:\pi_i=1}$ 是数学中的连乘（Product）符号加上一个筛选条件。1. $\prod$ (大写的 Pi)：代表连乘（即把后面所有的项乘起来），就像 $\sum$ 代表连加一样。下标 $i$：表示索引变量。冒号 $:$：表示“满足……条件”（such that）。$\pi_i = 1$：这是筛选条件。

两阶段建模解析

**总商品库 ($N$)**：只有 4 个商品 ${A, B, C, D}$。
**真实情况 ($\mathbf{y}$)**：用户只喜欢 A 和 C。
阶段 1 任务：从中选 2 个 ($q_1=2$) 给阶段 2。
阶段 2 任务：给这 2 个打分，算出最终概率。

公式一：交叉熵损失 (CE Loss)

$$CE(P_{CS}^{q_2}, \mathbf{y}) = -\sum_i (y_i \ln((P_{CS}^{q_2})i) + (1-y_i)\ln(1-(P{CS}^{q_2})_i))$$

这个公式是最终的裁判，用来衡量模型预测得准不准。

**$P_{CS}^{q_2}$ (Prediction)**：系统最终预测的生存概率向量。
- 例子：假设模型算出来 A、B、C、D 最终被选中的概率是 $[0.8, 0.2, 0.6, 0.1]$。
**$\mathbf{y}$ (Ground Truth)**：真实标签向量（二值向量）。
- 含义：用户实际点击了哪些。
- 例子：用户喜欢 A 和 C，不喜欢 B 和 D。所以 $\mathbf{y} = [1, 0, 1, 0]$。
**$i$**：商品索引。含义：遍历每一个商品 (A, B, C, D)。
**$\sum_i$**：求和。含义：把所有商品的判断误差加起来，变成一个总的 Loss 值。
**$\ln$**：自然对数。

计算逻辑：

对于商品 A ($y=1$)：我们要最大化 $\ln(0.8)$。
对于商品 B ($y=0$)：我们要最大化 $\ln(1-0.2)$。
如果预测反了（比如 A 预测成 0.1），$\ln(0.1)$ 是个很大的负数，取负号后 Loss 就会变得超级大。

公式二：采样概率 ($P_\pi$)

$$P_\pi = \frac{\prod_{i:\pi_i=1} (P_{\mathcal{M}1}^{q_1})i}{\sum{S \subseteq [N], |S|=T} \prod{j \in S} (P_{\mathcal{M}_1}^{q_1})_j}$$

这个公式描述的是阶段 1 (粗排模型) 的行为：它选出某一种特定组合的概率是多少？

**$P_{\mathcal{M}_1}^{q_1}$**：粗排模型的打分向量。
- 例子：模型 1 觉得四个商品的分数是 $[0.9, 0.1, 0.8, 0.2]$ (A, B, C, D)。
**$\pi$**：一种具体的采样结果（Mask）。
- 含义：比如“选中 A 和 C”这种组合，表示为 $[1, 0, 1, 0]$。
**$\prod_{i:\pi_i=1}$**：只乘选中的项（分子部分）。
- 例子：对于组合 ${A, C}$，分子 = $0.9 \times 0.8 = 0.72$。
**$S \subseteq [N], |S|=T$**：分母里的求和条件。
- 含义：遍历所有可能的长度为 $T$ ($T=q_1$) 的子集。
- 例子：我们要从 4 个里选 2 个，所有可能的组合有 6 种：(AB, AC, AD, BC, BD, CD)。
**分母整体 $\sum \prod$**：归一化系数。
- 含义：算出所有 6 种组合的分数乘积之和，作为分母，确保所有概率加起来等于 1。
计算：
- AB: $0.9 \times 0.1 = 0.09$
- AC: $0.9 \times 0.8 = 0.72$
- …以此类推算出总和。
结果：$P_\pi(\text{选AC}) = \frac{0.72}{\text{总和}}$。这表示“选中 A 和 C 这一对”的概率。

公式三：最终生存概率 ($P_{CS}^{q_2}$)

$$P_{CS}^{q_2} = \mathbb{E}{\pi \sim P_\pi} \frac{(P{\mathcal{M}2}^{q_2} \odot \pi)}{\langle \pi, P{\mathcal{M}2}^{q_2} \rangle / \langle \mathbf{1}, P{\mathcal{M}_2}^{q_2} \rangle}$$

这个公式把两个阶段结合起来，计算在考虑了粗排筛选风险的情况下，精排模型给出的期望分数。

**$\mathbb{E}_{\pi \sim P_\pi}$**：数学期望。
- 含义：因为粗排是个概率过程（可能选 AC，也可能选 AD），我们需要把所有情况按照它们发生的概率 ($P_\pi$) 加权平均。
**$P_{\mathcal{M}_2}^{q_2}$**：精排模型的打分向量。
- 例子：模型 2 比较准，分数是 $[0.95, 0.05, 0.95, 0.05]$ (A, B, C, D)。
**$\odot \pi$**：掩码操作（Hadamard 积）。
- 含义：如果粗排没选中（$\pi$ 对应位置是 0），精排分再高也没用，直接置零。
- 例子：如果 $\pi$ 选了 AC ($[1,0,1,0]$)，那么 B 和 D 的分变成 0。向量变为 $[0.95, 0, 0.95, 0]$。
**$\langle \pi, P_{\mathcal{M}_2}^{q_2} \rangle$**：被选中的物品的总分（点积）。
- 例子：$0.95 \text{(A)} + 0.95 \text{(C)} = 1.9$。
**$\langle \mathbf{1}, P_{\mathcal{M}_2}^{q_2} \rangle$**：所有物品的总分。
- 例子：$0.95+0.05+0.95+0.05 = 2.0$。
分母里的除法：权重归一化。
- 含义：$1.9 / 2.0 = 0.95$。这个系数代表“当前选中的这一组，占了总分数的 95%”。

整体逻辑：
拿“被掩码后的分数”除以“该组合的权重占比”。如果粗排经常把高分物品漏掉（$\pi$ 经常是 $[0,1,0,1]$），那么期望值里的有效分数就会很低，最终 $P_{CS}$ 就会很小。

$P_{CS}^{q_2} = \sum_{\text{所有可能的 } \pi} \left( P_\pi \cdot f(\pi) \right)$

假设只有 3 个商品，粗排选 2 个：
组合与概率：

选 ${A, B}$ 的概率 $P_{\pi_1} = 0.8$
选 ${B, C}$ 的概率 $P_{\pi_2} = 0.2$（假设选 ${A, C}$ 概率为 0）
算得分：
如果选了 ${A, B}$，算出的归一化得分向量是 $[0.9, 0.1, 0]$。
如果选了 ${B, C}$，算出的归一化得分向量是 $[0, 0.5, 0.5]$。
算期望：
$P_{CS} = 0.8 \times [0.9, 0.1, 0] + 0.2 \times [0, 0.5, 0.5]$
$P_{CS} = [0.72, 0.08, 0] + [0, 0.1, 0.1] = [0.72, 0.18, 0.1]$

这里的逻辑是：

**采样的是 $\pi$**：系统根据模型 1 的预测去“猜”哪些物品能进前 $q_1$ 名。这是一个随机过程。
优化的是 Groundtruth 的通过率：我们有一个固定的目标 $\mathbf{y}$（比如商品 A 和 C 是好的）。我们希望调整模型参数，使得在上面的采样过程中，$\pi$ 恰好总是选中 A 和 C。
结果：如果 $\pi$ 选中了 A 和 C，并且模型 2 也给了高分，那么 $CE$ Loss 就会很小。

总结一句话：我们在用 $CE$ Loss 强迫模型 1 生成的随机采样分布 $P_\pi$，尽可能地与真实的 Groundtruth 分布（永远选中好商品）重合。

离散 Top-K 算子的矩阵表达解析

1. 设定场景

背景：假设有 4 个物品（Item 1, Item 2, Item 3, Item 4），模型 $\mathcal{M}$ 给它们打的分数向量 $x$ 是：
$$x = [10, \mathbf{90}, 50, \mathbf{80}]$$
（注意：Item 2 是 90 分，Item 4 是 80 分，它是前两名）。

目标：我们现在的目标是：找出 Top-2 的物品（也就是 $k=2$）。

2. 什么是“排列矩阵” $\mathcal{P}$？

文本里说：“$(\mathcal{P}x^{\downarrow}){i,j}=1$ 表示 $x_j$ 是 $x$ 中第 $i$ 大的元素”。

这句话翻译成人话就是：矩阵的第 $i$ 行，用来指示“第 $i$ 名是谁”。

我们来看看排名的实际情况：

**第 1 名 ($i=1$)**：是 90 分（在原数组的第 2 个位置）。
**第 2 名 ($i=2$)**：是 80 分（在原数组的第 4 个位置）。
**第 3 名 ($i=3$)**：是 50 分（在原数组的第 3 个位置）。
**第 4 名 ($i=4$)**：是 10 分（在原数组的第 1 个位置）。

根据这个排名，我们构建排列矩阵 $\mathcal{P}$（每一行对应第 1 名到第 4 名的位置）：
$$\mathcal{P} =
\begin{pmatrix}
0 & \mathbf{1} & 0 & 0 \
0 & 0 & 0 & \mathbf{1} \
0 & 0 & 1 & 0 \
1 & 0 & 0 & 0
\end{pmatrix}
\begin{matrix}
\leftarrow \text{第1行：第1名在位置2} \
\leftarrow \text{第2行：第2名在位置4} \
\leftarrow \text{第3行：第3名在位置3} \
\leftarrow \text{第4行：第4名在位置1}
\end{matrix}$$

3. 那个求和公式 $\sum$ 是在干嘛？

文中给出的公式是：
$$\mathcal{M}i^{\downarrow}(k) = \sum{j=1}^{k} (\mathcal{P}{\mathcal{M}}^{\downarrow}){j, :}$$

这其实就是把矩阵的前 $k$ 行加起来。

现在我们要选 Top-2 ($k=2$)，所以我们只看矩阵的前两行：

第 1 行（冠军）：$[0, 1, 0, 0]$
第 2 行（亚军）：$[0, 0, 0, 1]$

把它们加起来：
$$[0, 1, 0, 0] + [0, 0, 0, 1] = [0, \mathbf{1}, 0, \mathbf{1}]$$

4. 结果解读

最后得到的这个向量 $[0, \mathbf{1}, 0, \mathbf{1}]$ 就是公式里的 $\mathcal{M}_i^{\downarrow}(k)$。它是一个掩码（Mask）：

第 1 个位置是 0 $\rightarrow$ Item 1 没选中
第 2 个位置是 1 $\rightarrow$ Item 2 选中了
第 3 个位置是 0 $\rightarrow$ Item 3 没选中
第 4 个位置是 1 $\rightarrow$ Item 4 选中了

总结

这段看似复杂的数学描述，其实只干了一件事：

排序：看看谁的分数高。
制表：造一个矩阵记录第几名原本在哪里。
圈地：如果我要 Top-K，我就把表里的前 K 行拿出来，并在对应位置打勾。

为什么要搞这么复杂？

最后那句“松弛为随机变量…进行优化”才是重点。因为硬生生的排序（Sort）和取前 K 个（Top-K）是不可导的操作（没法求梯度，没法训练神经网络）。

作者把它写成矩阵形式，是为了后面把这个“由0和1组成的硬矩阵”变成“软绵绵的概率矩阵”（比如用 Gumbel-Softmax 或 NeuralSort），这样就可以放进神经网络里反向传播了。

1. 场景设定

背景：一家公司要招人。

**阶段 1 ($\mathcal{M}_1$)**：HR 简历筛选。
- 任务：从一堆简历里选出 $q_1$ 个人进入下一轮。
- 对应公式中的 $P_{\mathcal{M}_1}^{q_1}$（HR 给每个人通过的概率）。
**阶段 2 ($\mathcal{M}_2$)**：业务主管面试。
- 任务：从 HR 选送的人里，选出 $q_2$ 个人发 Offer。
- 对应公式中的 $P_{\mathcal{M}_2}^{q_2}$（主管给每个人打的分）。
**目标 ($\mathbf{y}$)**：我们希望真正的人才（Ground Truth, $y=1$）能拿到 Offer。

2. 核心概念解释

A. $P_{\pi}$：HR 的选择结果（采样概率）

你在图中间看到的那个带 $\prod$ 的大公式，是在计算“某一种特定的入围名单”出现的概率。

假设有 3 个候选人：小王（牛人）、小李（混子）、小张（混子）。
HR 的打分（概率）：小王(0.9), 小李(0.6), 小张(0.1)。
**我们要选 2 个人 ($q_1=2$)**。
- **组合 $\pi_1$ (小王, 小李)**：概率很高，因为两人分都高。
- **组合 $\pi_2$ (小李, 小张)**：概率很低，因为小张分太低了。

B. $P_{CS}^{q_2}$：最终生存概率（期待值）

你在图下方看到的那个带 $\mathbb{E}$ 的公式，是在算“小王最终拿到 Offer 的平均概率”。
这个概率取决于两件事：

HR 得先把小王放进来（取决于 $P_{\pi}$）。如果 HR 没选小王，主管根本见不到他，得分为 0。
主管得给小王打高分（取决于 $P_{\mathcal{M}_2}^{q_2}$）。

C. $CE(P_{CS}^{q_2}, \mathbf{y})$：交叉熵 Loss

这就是标准的奖惩机制。

**如果小王是牛人 ($y=1$)**：我们需要 $P_{CS}^{q_2}$ 越接近 1 越好。
如果小王没拿到 Offer：Loss 就会变大。

3. 举个具体的数字例子（全流程）

假设 $y_{小王} = 1$ (小王是真正的人才)。

情景一：模型配合得很好

**阶段 1 (HR)**：给小王打了高分。
结果：在大多数可能的组合 $\pi$ 里，小王都在名单上。
**阶段 2 (主管)**：给小王打了高分（比如 0.95）。
计算期望：期望分数 $\approx$ (小王在名单里的概率 0.9) $\times$ (主管打分 0.95) = 0.855。
计算 Loss：$Loss = -1 \times \ln(0.855) = \mathbf{0.15}$ (Loss 很小，模型很开心)。

情景二：阶段 1 掉链子了（漏斗问题）

**阶段 1 (HR)**：眼拙，觉得小王不行，给了低分。
结果：小王很难进入名单 $\pi$。他在大多数情况下被“截断”了。
**阶段 2 (主管)**：虽然主管模型很准，但是他没机会见到小王。
在那些小王没入选的组合里，小王的得分被 Mask 成了 0。
计算期望：期望分数 $\approx$ (小王在名单里的概率 0.1) $\times$ (主管打分 0.95) = 0.095。
计算 Loss：$Loss = -1 \times \ln(0.095) = \mathbf{2.35}$ (Loss 巨大！)。

4. 这个 Loss 的妙处（Back Propagation）

当发生了情景二（Loss 巨大）时，梯度反向传播会告诉模型：
“喂！最后结果不对！小王是牛人，但他没拿到分！”

这时候，责任会通过数学公式分摊：

主管模型 ($\mathcal{M}_2$) 说：“这不怪我啊，我如果见到他肯定给高分，但我没见到啊！”
HR 模型 ($\mathcal{M}_1$) 就会收到强烈的梯度信号：“是你前面没把他选进来！下次把小王的 $P_{\mathcal{M}_1}$ 提上去！”

这就是“端到端代理 Loss”的核心意义：
它通过最终的胜负（是否 Recall 成功），跨过中间的采样过程，直接去优化前面的粗排模型，让粗排模型知道：“凡是后面精排模型喜欢的，你前面都要给我放进来，别误杀”。

问题

冲突是怎么发生的？假设我们要选出 Top-2（金牌和银牌），而球员 A 和球员 B 都是顶级天才（Ground-truth $y_A=1, y_B=1$）。模型的宏伟目标：希望 A 和 B 都能进入前两名。
梯度的指令：

指令 1：把 A 往“第一名”的位置推（增加 $\hat{P}_{1,A}$）。
指令 2：把 B 也往“第一名”的位置推（增加 $\hat{P}_{1,B}$）。
因为“第一名只能给一个人”的硬约束（求和等于 1），这两个指令是完全相反的。为了让 A 的概率上升，模型必须牺牲 B。
后果：模型在训练时会感到“左右为难”，梯度信号一会儿让 A 冲，一会儿让 B 冲，导致参数更新抵消，训练极其不稳定。

prediction

发表于 2025-08-11 分类于 research

ctr预估

顶层范式对比：判别式 vs. 生成式

维度	传统判别式方法 (Discriminative)	新兴生成式方法 (Generative)
核心目标	学习一个决策边界，直接预测一个标签的条件概率 $P(Y\|X)$。示例：“给定特征X，用户点击Y的概率是多少？”	学习数据的联合分布 $P(X, Y)$ 或其生成过程。模型旨在理解数据的底层结构与机制，而不仅仅是对数据点进行区分。
解决的问题	数值预测与排序： - 直接对CTR/CVR等指标进行精确的数值预测。 - 核心优化目标为AUC、Logloss等排序或校准指标。	机制理解、序列生成与特征表示： - 端到端序列推荐，直接生成推荐列表。 - 为下游任务生成高阶、具有语义的特征表示。 - 通过模拟数据生成过程，进行数据增强或偏差校准。 - 对用户行为或市场动态进行仿真与归因分析。
代表模型/技术	特征交互模型: Wide & Deep, DeepFM, DCN, xDeepFM 用户序列模型: DIN, DIEN 多任务/偏差校正: ESMM, PLE 集成模型: XGBoost, LightGBM	完全生成式架构: HSTU, OneRec 混合式/特征增强架构: LUM, HLLM 数据增强/分布建模: VAE, GAN
主要优势	高效性与精确性：在特定预测任务上计算效率高，经过长期优化，预测精度有保障。技术成熟度高：工业界有大量成熟的应用、优化经验和稳定的部署方案。	统一多阶段流程: 完全生成式架构能替代传统多阶段漏斗，解决目标不一致问题。语义理解与泛化: 能基于内容理解进行推荐，有效缓解数据稀疏和冷启动问题。提供过程可解释性：通过模拟生成路径，为归因分析和反事实推断提供了可能性。
主要挑战	模型可解释性差：通常被视为“黑箱”，难以对单个预测结果进行归因。强数据依赖性：在历史交互数据稀疏或缺失的场景下（如冷启动），模型效果会显著下降。偏差敏感性：容易学习并放大训练数据中存在的各种偏差（如选择偏差、位置偏差）。	计算与工程成本高：生成式大模型的训练和在线推理成本通常远高于判别式模型，对硬件资源要求高。建模复杂度高：需要将业务流程抽象为生成过程，对建模能力要求更高。技术尚处发展阶段：大规模、成熟的工业界应用相对较少，许多方案仍在快速迭代和探索中。

主流判别式CTR/CVR模型详细比较

模型类别	代表模型	核心创新点	解决的主要问题	优势	权衡/挑战
特征交互模型	Wide & Deep, DeepFM	结合浅层（记忆）和深层（泛化）网络，或将FM与DNN结合。	平衡模型的记忆能力和泛化能力，自动学习低阶和高阶特征交互 [1]。	效果稳健，易于实现。	MLP部分特征交互是隐式的，效率和可解释性一般。
	DCN, xDeepFM	设计显式的交叉网络（Cross Network）或压缩交互网络（CIN）来建模高阶特征交互。	更高效、更有针对性地学习高阶特征交互，避免MLP的“暴力”学习。	参数效率高，能显式控制交互阶数，有一定可解释性。	交互模式相对固定，可能不如注意力机制灵活。
用户序列模型	DIN (Deep Interest Network)	引入注意力机制，根据目标广告动态激活用户历史行为序列中的相关兴趣。	解决传统池化方法无法捕捉用户兴趣多样性和上下文相关性的问题 [2]。	显著提升对用户动态兴趣的捕捉能力，模型更具上下文感知能力。	注意力计算与序列长度成正比，长序列下面临性能瓶颈。
	DIEN (Deep Interest Evolution Network)	在DIN基础上引入GRU，显式建模用户兴趣的演化过程和时序依赖。	捕捉用户兴趣的发展趋势，而不仅仅是静态的相关性。	能更深刻地理解用户兴趣的演化链路，预测更具时效性。	模型结构更复杂，训练成本更高。
多任务学习框架	ESMM (Entire Space Multi-task Model)	在全曝光空间上联合建模pCTR和pCTCVR，间接推导pCVR。	从根本上解决了CVR预估中的样本选择偏差（SSB）问题 [3]。	理论优雅，效果显著，已成为CVR预估的工业标准范式。	依赖于 $pCVR = pCTCVR / pCTR$ 的假设，任务间信息共享机制简单。
	PLE (Progressive Layered Extraction)	设计解耦的共享专家和任务独有专家网络，并进行渐进式信息提取。	解决多任务学习中普遍存在的“跷跷板”现象（负迁移）[4]。	有效缓解任务间冲突，提升多任务学习的整体性能和稳定性。	架构设计和调优相对复杂。
迁移学习框架	Transfer Learning (Fine-tuning)	利用在数据丰富的源域（如所有广告）上预训练的模型，在数据稀疏的目标域（如特定广告位）上进行微调 [5, 6]。	解决冷启动和数据稀疏问题，校准由选择偏差导致的有偏预测 [5]。	有效利用已有知识，提升稀疏场景下的模型性能和泛化能力。	需要仔细设计迁移策略，防止负迁移；源域和目标域的差异性是关键。

1. 生成式架构 (Generative Architecture)

LLM4Rec 范式概览

A Survey on Large Language Models for Recommendation：https://arxiv.org/pdf/2305.19860
如上图，LLM4Rec 概括来说有3种范式：

LLM Embedding + RS：利用语言模型作为特征提取器，将 user 和 item 的描述输入给 LLM 然后得到 embedding，然后再将这些 embedding 输入到传统推荐模型使用（小红书 NoteLLM）
案例：小红书笔记推荐，利用 LLM 产生笔记 embedding 然后做 i2i 召回；
LLM Tokens + RS：利用语言模型的输出对 RS 进行辅助增强（谷歌 Youtube、华为 KAR）
案例：谷歌 Youtube 利用 LLM 产生指导兴趣标签，然后从传统推荐模型结果里只筛选出兴趣标签内的；
LLM As RS：直接将语言模型作为推荐系统，大致分为三类：
a. 将推荐视为文本生成任务，文本结果即推荐结果：P5、VIP5、M6-Rec
b. 基于 LLM 的生成式推荐：Meta GR（2024’02）
c. 改造传统推荐模型并变大，展现 Scaling Law 规律：Meta Wukong（2024’03）
案例：阿里 M6-Rec 将推荐任务全部转化成文本，用户特征、物料都用文本描述，最后可以直接生成文本进行推荐。

各模型详细解析

传统判别式推荐模型 (DLRM)

模型概述：这是工业界最成熟和广泛应用的一类模型，其核心目标是学习一个判别函数 $P(y|x)$，即在给定用户和物品的特征后，预测一个具体的分数，如点击率（CTR）或转化率（CVR）。
技术架构：经典架构通常是“输入层 + Embedding层 + 特征交互层 + MLP层”。Embedding层将高维稀疏的ID特征映射为低维稠密向量；特征交互层通过点积、交叉网络（如DCN）或注意力机制（如DIN）来学习特征间的组合关系；MLP层则进行非线性变换并输出最终预测值。
优势与挑战：优势在于技术成熟、预测精准、易于部署。挑战在于模型是“黑箱”，难以解释；严重依赖历史数据，泛化和冷启动能力弱；并且多阶段的推荐漏斗存在目标不一致和信息损失问题。

完全生成式

1.1 HSTU (Meta)

模型概述：HSTU将推荐彻底范式化为一个序列到序列（Seq2Seq）的生成任务。模型根据用户历史直接生成未来可能交互的物品ID序列。
具体做法

这篇是 GR 架构的示范，直接把推荐 task 转为序列转导问题，用 HSTU 编码器串起所有交互行为
- 将所有用户行为、上下文和物品特征统一编码为事件序列。
- 采用为推荐场景定制的高效Transformer变体HSTU架构，自回归地预测下一个事件（物品）。
- 将模型参数规模扩展至万亿级别，首次在推荐领域验证了Scaling Law的有效性。
优势
- 彻底抛弃多阶段pipeline，实现端到端优化，解决目标不一致问题。
- 能够建模更长、更完整的用户行为序列。
- 超大规模模型可能涌现出更深层次的用户理解能力。
挑战
- 算力要求高、在线延迟高、无法利用交叉特征

1.2 OneRec (快手)

模型概述：同样采用端到端生成范式，统一多阶段流程，直接生成推荐的视频ID序列。
技术架构与实现：核心技术包括视频Tokenizer（将视频压缩为语义ID）和引入**强化学习(RL)**（通过DPO等方法对齐多业务目标）以及采用Encoder-Decoder结构，并引入MoE提升效率。
优势：
1. 极大地简化了系统架构，显著降低了运营成本。
2. 通过RL，能更灵活地对齐长期、复杂的业务指标。
挑战：
1. 语义ID的质量直接决定了生成效果，设计和迭代成本高。
2. 面临生成无效ID或热门ID的问题，强依赖奖励模型进行约束。

2. 堆叠式架构 (Stacked Architecture)

2.1 Large User Model - LUM (阿里)

模型概述：LUM代表了一种务实的融合路径，其核心思想是“用生成式模型赋能传统的判别式模型”，而非完全替代。
技术架构与实现：
- 阶段1:以充足的各式各样的用户行为作为语料，构造通用的LUM，理解搜推广下的语言体系&协同信号。同时承担Scaling Law的能力。注意此时LUM是下游任务无关的。
- 阶段2:通过构造不同trigger，来提取与下游强相关的Knowledge。达到生成式->判别式转换目的，适配下游各种应用
- 阶段3:以增量信号的方式引入到各个生产模型中去
优势：
1. 无需重构现有系统，落地成本低，风险可控。
2. 利用了生成式模型的泛化能力，同时保留了判别式模型的高效和精准。
挑战与权衡：
1. 多阶段串行优化（预训练->查询->排序），增加了系统链路的复杂性和迭代成本。
2. 生成式预训练的目标与下游判别式任务的目标可能不完全一致。

2.2 HLLM (字节)

模型概述：用LLM彻底替代了传统的、无语义的ID Embedding。
技术架构与实现：做了一个双LLM结构：
- Item LLM 用文本描述建模物品（标题、标签等），下游可以直接拿 emb用
- User LLM 则接历史物品 emb序列，学习用户兴趣 ➜ 预测下一个物品
  两个 LLM 分开训练，既节省 token 长度，又保留了预训练能力。
优势与创新点：
1. 将推荐从基于ID的“符号匹配”升级为基于内容的“语义理解”。
2. 解决冷启动：对新物品，只要有文本描述就能立即进行高质量推荐。
挑战与权衡：
1. 模型效果高度依赖物品是否有高质量、信息丰富的文本描述。
2. 双LLM架构的训练和推理成本依然很高。

3. 混合式架构 (Hybrid Architecture)

3.1 [MTGR (美团)](MTGR：美团外卖生成式推荐Scaling Law落地实践)

图1 外卖推荐DLRM范式下Scaling路径

在模型方面是微创新，主要创新是在推理阶段，而这也是为了落地而做。推理阶段就是深度使用Nvidia的feature，挖掘和发挥其GPU的推理能力。

比HSTU微创新有：

（1）保留交叉特征：将用户特征、历史行为序列、实时交互和候选者特征（包括交叉特征）转化为统一令牌序列，交叉特征被整合进候选者令牌中。

（2）组层归一化：按领域分组对不同领域的token进行归一化，确保每个领域内的token分布相似，通常调整为均值0、方差1的分布，从而在自注意力计算前对齐不同领域的语义空间。

（3）动态掩码策略：MTGR模型用来处理令牌序列的一种方法，主要目的是避免信息泄露，同时提升模型性能。它的核心思想是根据令牌的类型和时间关系，灵活控制哪些令牌可以“看到”其他令牌的信息。

推理阶段的创新有：

（1）通过集成Nvidia提供的深度优化的Cutlass-based HSTU kernel，支持变长序列的输入无需padding，

大幅提升了Attention的计算效率，单算子性能相较于Triton版本提升2~3倍。

（2）引入动态BS，每张卡的BS根据实际数据的序列长度动态调整，保证计算量（total_tokens）基本相同。因为少数用户的序列很长，大部分用户的序列都比较短，每张卡拿到的用户数相同，但由于序列长度不同实际的计算量差别较大。而每个step都要等负载最重的卡计算完，所有卡才能进行梯度同步。

（3）选择TensorRT作为模型推理框架：TensorRT是Nvidia推出的推理优化框架，在业界广泛应用，具有较强的算子融合、低精度量化能力。

ab效果：

转换量提升 1.22%，点击率（CTR）提升 1.31%。同时，训练成本保持不变，推理成本降低 12%。

4. 判别式扩展架构 (Discriminative Scaling)

4.1 RankMixer (抖音)

作者认为，深度学习推荐模型（DLRMs）的扩展定律研究必须克服以下问题：
- 架构应与硬件对齐，以最大化现代GPU上的MFU和计算吞吐量。
- 模型设计必须利用推荐数据的特性，如数百个字段之间的异构特征空间和个性化跨特征交互。
这两个问题对应了RankMixer的两大模块：
- 对输入特征进行tokenizer，用token操作代替特征交叉；
- 用稀疏MoE代替self-attention，扩大参数的同时保证并行度，使得RankMixer在相同的FLOPS下具有更大的模型容量和学习能力。
输入特征被分词为T个语义相关的特征令牌（tokens），通过L层RankMixer块处理。每层包括2部分：
1. 多头令牌混合（Multi-head Token Mixing）：无参数操作，通过拆分头（heads）并重组令牌，实现跨令牌特征交互。比自注意力更高效，避免了异构特征空间的相似度计算难题。
  具体的，用户、item、交叉等特征构建的连续的每个特征field（embedding）是被当作token，那么所有特征field就是一个token序列，也可以看作是一个shape是（T，D）的矩阵。将列分块成（T，HD/H)的矩阵。然后转换为shape是（H，TD/H）的矩阵。那么现在的每个token（每一行）就有原生每个特征field（token）的一部分。可以简单理解为，后续对该token的任何操作都是对所有特征field的操作。
2. 每令牌前馈网络（Per-token FFNs）：为每个令牌分配独立参数，处理特征子空间建模，避免高频特征主导长尾信号。扩展为Sparse-MoE变体，使用动态路由（ReLU Routing + Dense-Training/Sparse-Inference）解决专家不均衡和欠训练问题，提高ROI。

RankMixer 和 DeepSeek 都使用了稀疏专家混合（MoE），这是近年来高效大模型的热门技术。DeepSeek 的 MoE（如 DeepSeek V3）在 NLP 领域广为人知，而 RankMixer 将 MoE 适配到推荐系统，优化了路由策略（如 ReLU Routing）以处理特征不均衡。

AB：

* 部署于抖音Feed推荐（1B参数），活跃天数+0.2%、App时长+0.5%；低活跃用户提升最大（活跃天数+0.46%）。

* 在广告（ADVV+3.9%）和搜索（活跃天数+0.14%、查询修改率-1%）场景中也显著提升，验证通用性。

心得：

（1）多头令牌混合，实现了重组令牌，输出每个令牌是所有特征field的小部分组成的，换句话说，对该令牌的后续操作就是对所有特征field的特征交叉。对所有新令牌的处理，就是一种并行处理。这个借鉴MLP-Mixer。

（2）每令牌前馈网络，为每个特征field设置独立的网络，并且使用很多expert网络，这些都增大了模型的规模和weights数量。但是通过动态策略、稀疏MOE，即路由到少量的expert上，实现了效率的可控。这很像deepseek的优化。

模型核心对比总览表

技术路径	模型/机构	核心思想	核心贡献/价值
基线	传统判别式模型	为“用户-物品”对进行精准打分和排序。	奠定了深度学习推荐的基础，在特定预测任务上高效且成熟。
生成式架构	HSTU (Meta)	将推荐重构为序列到序列的内容生成问题。	首次在工业界验证了推荐系统的“ Scaling Law ”。
	OneRec (快手)	用端到端的统一生成模型替代多阶段推荐漏斗。	提供了一套完整的、可落地的端到端生成式推荐系统方案。
堆叠式架构	LUM (阿里)	“生成式赋能判别式”：用生成模型离线构建知识，增强传统模型。	无需重构现有系统，落地成本低，风险可控。
	HLLM (字节)	用层级化LLM替代传统ID Embedding，实现端到端的语义化。	将推荐从“符号匹配”升级为“语义理解”。
混合式架构	MTGR (美团外卖)	借鉴生成式架构(HSTU)作为统一特征编码器，兼容全部特征进行判别式任务预估。	既利用了Transformer强大的序列编码能力，又保留了交叉特征等被验证有效的判别式信息。
判别式扩展架构	RankMixer (抖音)	在判别式范式内，通过软硬协同设计实现模型的极致扩展。	证明了通过架构创新，判别式模型同样能实现规模化效应。

CTR模型近期工作

研究方向	模型/论文名称	核心思想与贡献	应用与验证
建模用户行为	MIRRN (Multi-granularity Interest Retrieval and Refinement Network)(KDD2025) [1]	通过检索不同时间尺度的行为子序列来捕获用户的多粒度兴趣。引入多头傅里叶变换器高效学习序列关系。	在多个基准任务上效果显著，并通过华为音乐A/B测试验证，提升了用户听歌量和时长。
	LIBER (Lifelong User Behavior Modeling Based on Large Language Models) [2]	提出包含用户行为流分区、用户兴趣学习和融合三个模块的框架，利用大语言模型(LLMs)处理终身用户行为序列。有效解决了长序列信息提取和用户兴趣动态变化的挑战。	已部署在华为音乐推荐服务中，用户播放次数提升3.01%，播放时长提升7.69%。
建模特征交叉	IPA (Towards Unifying Feature Interaction Models) [3]	提出了一个名为IPA的通用框架，通过交互函数、层池化和层聚合器三个组件来统一现有特征交互模型。并基于该框架提出了一个有竞争力的新型模型。	基于该框架的新模型PFL在腾讯广告平台的A/B测试中获得显著GMV提升，并已在多个场景部署。
	OptFusion (Fusion Matters: Learning Fusion in Deep CTR Models)(WSDM2025) [4]	提出OptFusion方法，通过一次性学习算法自动化学习CTR模型中的融合连接和操作，解决了传统融合策略固化的问题。	在三个大规模数据集上的实验证明了其有效性和高效性。
集成架构	CETNet (A Collaborative Ensemble Framework for CTR Prediction) [5]	提出协同集成训练网络，让多个拥有独立嵌入表的模型协同学习，并通过基于置信度的融合机制动态平衡各模型贡献。	在Amazon、淘宝、快手及Meta的大规模工业数据集上验证了其有效性。
	MBCnet (Multi-Branch Cooperation Network) [6]	提出多分支协同网络，包含三个不同功能的网络分支。通过“分支共同教学”和“适度差异化”原则让多分支协作，以更好地建模复杂特征交互。	在淘宝的大规模工业数据集和在线A/B测试中，CTR、交易量和GMV均取得显著提升。
蒸馏机制	EKTF (Ensemble Knowledge Transfer Framework) [7]	针对大规模集成学习的局限性，提出集成知识迁移框架。利用学生网络的集体决策作为抽象教师指导学习，并设计考核机制平衡超参数。	在五个真实数据集上的实验结果表明其在有效性和兼容性方面均优于现有方法。
	FSDNet (Feature Interaction Fusion Self-Distillation Network) [8]	提出一个融合自蒸馏模块，在每一层连接显式和隐式特征交互。利用最深的融合层作为教师，通过自蒸馏指导浅层训练，避免了复杂的师生框架设计。	在四个基准数据集上验证了框架的有效性和泛化能力。
大语言模型相关	RAG-Enhanced LLM Recommender with Multi-Head Early Exit [9]	结合检索增强生成(RAG)和多头早退出机制来优化LLM推荐系统的效率和精度。利用图卷积网络(GCNs)加速检索，并根据预测置信度动态终止推理过程。	实验证明，该架构能在不牺牲精度的前提下有效减少计算时间，为LLM商业部署设立新标杆。
	MSD (LLM-Infused Approach for Optimized CTR Prediction) [10]	提出一个LLM融合框架(MSD)，通过提取和蒸馏LLMs中的关键语义信息，并将其集成到更小更高效的模型中，以平衡效率和效果。	在美团赞助搜索系统的在线A/B测试中，CPM和CTR显著优于基线模型。
	FLIP (Fine-grained Alignment between ID-based Models and PLMs) [11]	提出FLIP方法，通过新颖的联合掩码建模任务，实现表格ID与词语token之间的细粒度特征级对齐，结合了基于ID的模型和预训练语言模型(PLMs)的优势。	在三个真实世界数据集上的实验表明，FLIP超越了现有的SOTA基线模型。
跨域推荐	Enhancing CTR Prediction with Search Query Representation [12]	利用搜索领域的用户搜索查询来增强推荐领域的用户偏好建模。引入扩散模型解决数据稀疏性问题，以推断正样本。	实验分析表明，该模型在推荐领域的表现优于现有的最新模型。
	MLORA (Multi-Domain Low-Rank Adaptive Network) [13]	提出多领域低秩自适应网络，为每个领域设计专门的LoRA模块，以提升模型在多领域CTR预测任务中的性能，同时避免参数量剧增。	在多个多领域数据集和实际生产环境的A/B测试中验证了其优越性和灵活性。

参考文献

[1] Multi-granularity Interest Retrieval and Refinement Network for Long-Term User Behavior Modeling in CTR Prediction
* https://arxiv.org/abs/2411.15005

[2] LIBER: Lifelong User Behavior Modeling Based on Large Language Models
* https://arxiv.org/abs/2411.14713

[3] Towards Unifying Feature Interaction Models for Click-Through Rate Prediction
* https://arxiv.org/abs/2411.12441 [cite: 94]

[4] Fusion Matters: Learning Fusion in Deep Click-through Rate Prediction Models
* https://arxiv.org/abs/2411.15731 [cite: 115]

[5] A Collaborative Ensemble Framework for CTR Prediction
* https://arxiv.org/abs/2411.13700

[6] Branches, Assemble! Multi-Branch Cooperation Network for Large-Scale Click-Through Rate Prediction at Taobao
* https://arxiv.org/abs/2411.13057

[7] Ensemble Learning via Knowledge Transfer for CTR Prediction
* https://arxiv.org/abs/2411.16122

[8] Feature Interaction Fusion Self-Distillation Network For CTR Prediction
* https://arxiv.org/abs/2411.07508

[9] The Efficiency vs. Accuracy Trade-off: Optimizing RAG-Enhanced LLM Recommender Systems Using Multi-Head Early Exit
* https://arxiv.org/abs/2501.02173

[10] Balancing Efficiency and Effectiveness: An LLM-Infused Approach for Optimized CTR Prediction
* https://arxiv.org/abs/2412.06860

[11] FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction
* https://arxiv.org/abs/2310.19453
[12] Enhancing CTR Prediction in Recommendation Domain with Search Query Representation
* https://arxiv.org/abs/2410.21487

[13] MLORA: Multi-Domain Low-Rank Adaptive Network for Click-Through Rate Prediction
* https://arxiv.org/abs/2408.08913

ICML’25 | 从特征交互到特征生成：CTR预测模型的生成范式

论文解决的问题

传统点击率（CTR）预测模型基于特征交互估计用户点击物品的概率，遵循判别范式，但存在原始特征嵌入的局限性，易导致嵌入维度崩溃和信息冗余问题，且由于特征间无明确顺序，难以将其转化为生成范式。

1. 论文的创新点

提出一种用于CTR模型的新型监督特征生成框架，将判别式的“特征交互”范式转变为生成式的“特征生成”范式。具体做法是将所有特征嵌入拼接来预测每个特征嵌入。
此框架可以和现有的CTR模型结合提升性能，产生维度崩溃更少、冗余更低的特征嵌入，缓解判别范式的固有局限。

简单来说：

以FM为例，原始的方式是特征i和特征j进行交互，改进后是生成的特征i和原始的特征j交互。
生成方式是用所有的特征拼接后经过MLP来生成。

IAS

发表于 2025-01-27 分类于 research

Optimally Integrating Ad Auction into E-Commerce Platforms

IAS（Integrated Ad System）模型即集成广告系统模型，用于描述电商平台上广告与有机搜索结果混合排列的情况。该模型的目标函数和约束条件设计紧密围绕电商平台关注的核心指标，旨在平衡广告收入与用户体验。

目标函数
- 收入（Revenue）：$Revenue =\int_{V} \sum_{i \in A} p_{i}(v) w_{i} x_{i}(v) f(v) dv$，此公式表示收入是对所有广告商品的支付价格、质量因子、分配情况以及概率分布进行积分求和。其中，$p_{i}(v)$是广告商品$i$的支付价格，$w_{i}$为其质量因子，$x_{i}(v)$代表分配规则，$f(v)$是概率分布函数。通过这一函数计算，反映出平台从广告投放中获取的即时收入。
- 商品交易总量（GMV）：$GMV=\int_{V}\left[\sum_{i \in A} g_{i} w_{i} x_{i}(v)+\sum_{i \in O} g_{i} w_{i} x_{i}(v)\right] f(v) dv$，该公式计算的是平台的商品交易总量，考虑了广告商品和有机商品的预估交易量、质量因子和分配情况。其中，$g_{i}$为商品$i$的预估交易量，对广告商品和有机商品分别求和再积分，体现了平台业务的整体交易规模，是衡量用户体验和平台长期收益的重要指标。
- 无约束问题（Unconstrained Problem）：$UCST (\alpha)$给定加权系数$\alpha \in[0,1]$，通过线性凸组合收入和GMV来构建目标函数，即$max _{x \in \mathcal{X}} \alpha \cdot Revenue +(1-\alpha) \cdot GMV$。该目标函数旨在在不同权重下，同时考虑收入和GMV，寻找能使两者综合效益最大化的机制。例如，当$\alpha$接近1时，更注重收入；当$\alpha$接近0时，则更倾向于GMV。
  Unconstrained Problem $UCST (\alpha)$ ) Given the weighted coefficient $\alpha \in[0,1]$ ,the unconstrained problem $UCST (\alpha)$ ) can be written as
  $max _{x \in \mathcal{X}} \alpha \cdot Revenue +(1-\alpha) \cdot Volume. (4)$
- 约束问题（Constrained Problem）：$CST(V_{0})$给定GMV阈值$V_{0}$，以优化收入为目标，即$max Revenue$，同时需满足$GMV \geq V_{0}$和$x \in \mathcal{X}$的约束。此目标函数强调在保证一定GMV水平的前提下，最大化广告收入，体现了平台在平衡用户体验和短期收益时的考量。
  Constrained Problem $CST(V_{0})$ ) Given a threshold $V_{0}$ , the constrained problem $CST(V_{0})$ ) can be written as
  $$max Revenue \quad (P1)$$
  $$s.t. Volume \geq V_{0} \quad(C 1.1)$$
  $$x \in \mathcal{X} \quad(C 1.2)$$
约束条件
- 分配规则约束：对于分配规则$x_{ik}(b)$需满足$\sum_{k} x_{ik}(b) \leq 1, \forall i \in A \cup O$，确保每个商品最多被分配到一个展示位；$\sum_{i \in A} x_{ik}(b)+\sum_{i \in O} x_{ik}(b)=1, \forall k$，保证每个展示位都有且仅有一个商品；$x_{ik}(b) \in{0,1}, \forall i, k$，表示商品是否被分配到展示位只能是0或1的二元选择。这些约束保证了分配的合理性和唯一性。
- 个体理性（Individual Rationality）：$U_{i}(x, p, b_{i}) \geq 0, \forall b_{i} \in[0, u_{i}], \forall i \in A$，此约束确保广告商参与拍卖的期望效用非负，即广告商在平台的广告投放行为能获得至少为零的收益，这是吸引广告商参与的基本条件。
- 贝叶斯激励兼容（Bayesian Incentive Compatibility）：$U_{i}(x, p, v_{i}) \geq U_{i}(x, p, b_{i}), \forall b_{i} \in[0, u_{i}], \forall i \in A$，该约束保证广告商如实报告自身价值是最优策略，避免广告商虚假报价，维护拍卖机制的公平性和有效性。

无约束问题$UCST(\alpha)$

目标函数：$max {x \in \mathcal{X}} \alpha \cdot Revenue+(1 - \alpha)\cdot GMV(4)$。这里的$\alpha\in[0,1]$是加权系数，用于平衡对收入和GMV的侧重程度。
转化为引理 2:要最大化目标函数（4），机制需要最大化目标
$$\int{V} \sum_{i \in I}\left(\alpha \phi_{i}\left(v_{i}\right)+(1-\alpha) g_{i}\right) w_{i} x_{i}(v) f(v) d v-\alpha \sum_{i \in I} U_{i}(x, p, 0) . (5)$$
修正虚拟价值排序：机制$M$涉及到定义修正虚拟价值$\psi_{i}(v_{i})=(\alpha \phi_{i}(v_{i})+(1 - \alpha)g_{i})w_{i}=(1 - \alpha)g_{i}w_{i}$。其中$\phi_{i}(v_{i})$是广告商品$i$的虚拟价值，$g_{i}$是商品$i$的预估交易量，$w_{i}$是商品$i$的质量因子。按照这个修正虚拟价值对所有商品（包括广告商品和有机商品）进行排序。
定价规则(迈尔森)：有机商品的支付为0，广告商品的支付价格是根据其在排序中的位置和相关价值计算得出的，以保证个体理性（广告商参与拍卖的期望效用非负）和贝叶斯激励兼容（广告商如实报告自身价值是最优策略）。
给定分配规则和支付规则，广告项目 i 的出价为$b_{i}$时的预期效用可以表示为：$$U_{i}\left(x, p, b_{i}\right)=\int_{V_{-i}}\left(v_{i}-p_{i}\left(b_{i}, v_{-i}\right)\right) w_{i} x_{i}\left(b_{i}, v_{-i}\right) f_{-i}\left(v_{-i}\right) d v_{-i}$$
因为$p(b)$只出现在$U_{i}(x,p,0)$中，并且我们需要保证（IR）的性质，根据引理 1，如果我们选择$p_{i}(v)=v_{i}-\frac{\int_{0}^{v_{i}} x_{i}(s_{i},v_{-i})ds_{i}}{x_{i}(v)}$作为支付规则，那么$U_{i}(x,p,0)$将为 0，并且我们只需要考虑选择合适的$x(b)$来最大化式（5）的第一部分。
分配规则：将广告商品插入有机商品序列进行分配。对于分配规则$x_{ik}(b)$，要满足$\sum_{k}x_{ik}(b)\leq1,\forall i\in A\cup O$（每个商品最多被分配到一个展示位）、$\sum_{i\in A}x_{ik}(b)+\sum_{i\in O}x_{ik}(b) = 1,\forall k$（每个展示位都有且仅有一个商品）和$x_{ik}(b)\in{0,1},\forall i,k$（商品是否被分配到展示位是二元选择）等条件。
对于分配规则，我们将 $\psi_{i}(v_{i}) \stackrel{ def }{=}(\alpha \phi_{i}(v_{i})+(1-\alpha) g_{i}) w_{i}$ 定义为物品 $i$ 的修正虚拟价值。不难验证，以下分配规则可以最大化公式（5）的第一部分。
$x_{i k}(v)= \begin{cases}1 & 如果\psi_{i}\left(v_{i}\right)是第 k 高的修正虚拟价值，k\in{1,2,\ldots,K}。\0&否则。\end{cases}$

约束问题$CST(V_{0})$ -商业化率约束

可通过对偶转为无约束问题

放宽约束条件：由于可行域是离散的，即$x_{i k}(v)$不是关于出价$v$的连续函数，因此很难直接优化目标。我们首先将约束$x_{i k}(v)∈{0,1}$在（C1.2）中放宽为$x_{i k}(v)∈[0,1]$，并将放宽后的可行域记为$\bar{x}$。放宽后的约束问题为：
最大化$$R(x)\stackrel{ def }{=}\int_{V}\sum_{i\in I}w_{i}p_{i}(v)x_{i}(v)f(v)dv（P2）$$
约束条件为$$V(x)\stackrel{ def }{=}\int_{V}\sum_{i\in I}g_{i}w_{i}x_{i}(v)f(v)dv\geq V_{0}（C2.1）$$
$$x\in\overline{\mathcal{X}}（C2.2）$$
对偶问题：对于可访问的$V_{o}$，强对偶性成立意味着
$$\begin{aligned}&\underbrace{\max_{x:x\in\mathcal{X},V(x)\geq V_{0}}R(x)}{\text{原始问题}}=\underbrace{\min{\lambda\geq0}\max_{x\in\mathcal{X}}\left(R(x)+\lambda\left(V(x)-V_{0}\right)\right)}{\text{对偶问题}}\&=\min{\lambda\geq0}\max_{x\in\mathcal{X}}\left[\int_{V}\sum_{i\in I}\left(p_{i}\left(b_{i}\right)+\lambda g_{i}\right)w_{i}x_{i}(b)f(b)db-\lambda V_{0}\right]。\end{aligned}$$
分配规则：当给定一个$\lambda$时，它是一个具有松弛可行域$\bar{x}$的无约束问题。由于$\bar{x}$的系数矩阵是完全单模矩阵([22])，内部问题的最优解是整数形式，即 0-1 形式。因此，内部问题的最优解可以通过机制 M 以$\alpha = 1/(\lambda + 1)$获得，即
$$ x_{i k}^{\lambda}(v)=\begin{cases}1&\text{如果}\psi_{i}^{\lambda}\left(v_{i}\right)\text{是第}k\text{高的，}k\in{1,2,\ldots,K},\0&\text{否则，}\end{cases}$$
其中$\psi_{i}^{\lambda}(v_{i})\stackrel{def}{=}[(\phi_{i}(v_{i})+\lambda g_{i})w_{i}]/(\lambda + 1)$。
定价规则：$p_{i}^{\lambda}(v)$可以通过在(7)中将$x_{i k}(v)$替换为$x_{i k}^{\lambda}(v)$得到。
$\lambda$计算：二分
定理 2：具有阈值$V_0$的约束问题等价于一个具有系数$\alpha^{}$的无约束问题，其中$\alpha^{}=1/(\lambda^{}+1)$，并且$\lambda^{}$是约束问题中的最优拉格朗日乘子。

广告数量约束

问题设定：在集成广告系统中引入对广告商品总数的限制，要求广告商品数量不超过 $c$ ，即 $\sum_{i \in A} \sum_{k} x_{ik}(v) \leq c$，将此约束加入原有的约束条件集 $x$ 后得到新的可行域 $x’$。
无约束问题的最优机制：基于此前无约束问题的结论，商品按修正虚拟价值 $\psi_{i}(v_{i})$ 排序。在新约束下，为保证广告商品数量符合预算，在排序时仅考虑排名前 $c$ 的广告商品。由此得到扩展机制 $M’(c)$，具体步骤为：
- 将所有广告商品按 $\psi_{i}(v_{i})$ 降序排列，保留前 $c$ 个广告商品，删除其余广告商品；
- 针对剩余的广告商品和所有有机商品，运行系数为 $\alpha$ 的原无约束问题机制 $M$。
- 由于原机制 $M$ 的最优性以及对广告商品数量的有效控制，$M’(c)$ 是当前设定下无约束问题的最优机制。
约束问题的求解：对于约束问题，其求解逻辑与前文类似，但由于新可行域 $x’$ 的系数矩阵不再是全幺模矩阵，导致求解难度增加。通过将其转化为最小费用最大流问题（证明见附录 Lemma 6），可证明松弛问题仍具有0 - 1形式的最优解。基于此，约束问题仍能通过选择合适参数转化为无约束问题求解，从而将此前针对无约束和约束问题关系的结论（Theorem 2）扩展到存在广告数量预算约束的场景。

广告间隔约束

用广告数量约束的机制，分别运行局部的无约束问题

PC端

页面划分：当我们在电子商务平台上通过个人电脑搜索产品时，搜索结果通常显示为几行，每行包含几个项目。受这种布局的启发，我们希望限制每行中的广告数量以让用户感到舒适。鉴于此，我们将一个搜索结果页面分成多行，每行包含连续的 l 个槽位。然后，我们要求在这 l 个槽位中显示的广告项目最多为 c 个。我们将这个模型称为稀疏集成广告系统——行（SIASR）。
约束条件：$$\sum_{i \in A} \sum_{k = ml + 1}^{(m + 1)l} x_{ik}(v)≤c，m = 0,1,\ldots,|K/l|$$
$$\sum_{i \in A} \sum_{k=\lfloor K / l] l+1}^{K} x_{i k}(v) ≤c$$。将它们添加到$x$中并表示新的约束条件。
无约束问题的最优机制：基于上述分析，我们可以对每个部分运行机制(M’(c))来为稀疏集成广告系统（SIASR）生成一个可行的广告排列方案。这是因为机制(M’(c))本身具有最优性，所以每个部分都能实现最优的广告商品分配，进而使得整个页面所有展示位都能达到全局最优的分配效果。由此，我们得到了在这种设定下的最优机制，记为(\tilde{M}(c, l))。
- 第一步：运行机制(M’(c))，对所有商品（包括广告商品和自然商品）分配前(l)个展示位。机制(M’(c))会根据商品的相关价值对商品进行排序，并依据广告商品数量预算(c)，从所有商品中选择合适的商品分配到这(l)个展示位上。
- 第二步：运行机制(M’(c))，对剩余的所有商品分配接下来的(l)个展示位。在完成第一步分配后，剩余商品的集合发生了变化，再次运行机制(M’(c))，从这些剩余商品中选择合适的商品填充接下来的(l)个展示位。
- 第三步：重复第二步，直到所有展示位都分配完毕。需要注意的是，在最后一轮分配时，展示位的数量可能会小于(l)。这是因为前面按照每(l)个展示位一轮进行分配，到最后可能会剩下不足(l)个展示位，此时依然按照机制(M’(c))对剩余商品进行分配，以完成整个搜索结果页面的广告与自然商品的分配。
约束问题：我们通过引理 7（在附录中显示）克服了这个问题。到目前为止，我们解决了 SIASR 的受约束问题，并将定理 2 扩展到了这种情况。
引理 7.对于 SIASR，约束问题的松弛内问题可以构造为最小费用最大流问题，并且具有 0-1 形式的最优解。

移动端

页面划分：一般来说，输入一个关键字后，搜索结果在一列中显示（与个人电脑终端的布局不同）。如果我们仍然想限制广告的稀疏性，我们需要在任何连续的 l 个位置上添加约束，即任何连续的 l 个位置上最多显示 c 个广告项。
约束条件：$\sum_{i∈A}\sum_{k = m + 1}^{m + l}x_{ik}(v)\leq c$，$m = 0,1,\ldots,K - l$，并将新的可行区域表示为$\hat{x}$。我们将这个模型称为稀疏集成广告系统——列（SIASC）。
无约束问题的最优机制：

运行机制$M’(c)$以在所有物品上分配前$l$个时段。
运行机制$M’(c - a)$，为所有剩余物品分配下一个时段，其中$a$是最后$l - 1$个时段中的广告物品数量。
重复步骤 2，直到所有槽位都被分配。

约束问题：对于约束问题，我们可以将 SIASR 中使用的方法扩展到这种设置。唯一的区别是，在这种设置下，连续的 l 个槽有更多的约束。然而，最终它并不影响难度。我们只需要稍微修改一下图 6 的结构：添加一定数量的节点$k_{i}$来代表更多的组，并连接弧$s_{j}^{\prime\prime}k_{i}$，其中$j\in{i,i + 1,\cdots,i + l - 1}$，以及弧$k_{i}t$。其他分析是相似的。这样，我们将定理 2 推广到 SIASC 的情况。

混排

发表于 2025-01-04 更新于 2025-01-27 分类于 research

NMA: Neural Multi-slot Auctions with Externalities for Online Advertising

研究背景：在线广告是众多互联网平台的主要收入来源，拍卖机制的设计对平台、用户和广告商至关重要。广义第二价格（GSP）拍卖是常见机制，但存在用户点击假设与实际不符等问题。如在美团外卖平台，广告展示受多种因素影响，而GSP未考虑这些外部性。Deep Neural Auctions（DNA）虽有改进，但仍有局限，VCG及其变体WVCG在理论上可处理外部性，但在实践中面临收入下降或参数求解复杂等问题。
研究目的：提出一种新的神经多槽拍卖机制（NMA），有效建模全局外部性，平衡平台收入和社会福利，同时解决现有机制的问题。
方法与模型
- 模型结构
  - 上下文感知列表式预测模块（CLPM）：采用参数共享结构，输入广告列表及相关公共信息，通过嵌入层、自注意力单元和目标注意力单元处理，输出列表式pCTR。还提出基于广告真实反馈的辅助损失，使模型能有效建模全局外部性，提高预测准确性。
  - 列表式深度排名模块（LDRM）：结合拍卖机制与深度学习，设计μ-Net子网络计算广告列表排名分数，确定支付规则，保证激励兼容性（IC）和个体理性（IR），实现端到端优化，提高排名公式表达能力。
  - 列表式可微排序模块（LDSM）：将排序操作从不可微转换为可微，通过定义排序算子和放松argmax操作，输出行随机置换矩阵表示选择概率，使复杂拍卖机制能端到端训练，解决LDRM在分配和支付处理上与深度学习不适应的问题。
  - 社会福利最大化辅助损失：基于广告列表社会福利定义，构建辅助损失，加速学习过程，减少社会福利下降，通过调整参数平衡NMA性能，确保满足社会福利约束。
- 实验设计
  - 数据集：使用公共数据集Avito和工业数据集Meituan进行离线实验，将数据集按时间或比例划分为训练集和测试集。
  - 评估指标：包括点击率（CTR）、每千次展示收入（RPM）、每千次展示社会福利（SWPM）和社会福利最大化比率（SWMR），同时评估机制的IC属性。
  - 对比方法：与GSP、DNA、VCG和WVCG等代表性拍卖机制对比。
实验结果
- 离线实验
  - 性能比较：NMA在两个数据集上的RPM、SWPM和CTR指标上优于DNA和GSP，能有效建模全局外部性；与VCG相比，NMA在广告收入和社会福利间平衡更好；在RPM指标上明显优于WVCG，验证了NMA的强大表达和学习能力。NMA的IC-R值与VCG相当且优于GFP，满足IC约束。
  - 模块消融研究：去除CLPM、LDRM - LDSM或社会福利最大化辅助损失后的NMA变体性能均下降，证明各模块对NMA性能提升有重要作用，CLPM能有效建模全局外部性，辅助损失有助于平衡广告收入和社会福利。
  - 超参数分析：α₁增大时，SWPM增加但RPM下降，α₂在一定范围内增加可提升性能，过大则导致性能下降，说明辅助损失可帮助平衡收入和福利，且CLPM辅助损失权重需合理设置。
- 在线A/B测试：在美团外卖平台进行为期一个月的在线A/B测试，NMA相比GSP在CTR、RPM和SWPM上分别有显著提升，证明NMA在实际应用中可实现更高平台收入和社会福利，尽管在线测试与离线实验结果在绝对值上存在差异，但趋势一致。
研究结论：NMA有效建模全局外部性，通过设计的模块和辅助损失平衡平台收入和社会福利，在离线和在线实验中表现优异，已部署于美团外卖平台。未来可进一步优化，如采用列表生成模块替代全排列算法，提高工作效率。

摘要

在线广告拍卖为社交网络服务和电子商务平台带来了数十亿美元的收入。对于广告商来说简单易懂的广义第二价格（GSP）拍卖，几乎已成为行业中广告拍卖机制的基准。然而，大多数基于GSP的行业实践都假定用户点击仅依赖于广告本身，而忽略了外部项目的影响，即外部性。最近，深度神经网络拍卖（DNA）尝试用深度神经网络升级GSP，并在一定程度上对局部外部性进行建模。然而，它仅考虑了拍卖中的集合级上下文，而忽略了广告的顺序和展示位置，这仍然不是最优的。尽管基于维克里 - 克拉克 - 格罗夫斯（VCG）的多槽拍卖（如VCG、加权VCG（WVCG））使得对全局外部性（如广告的顺序和位置等）进行建模在理论上成为可能，但它们缺乏对收入和社会福利的有效平衡。

在本文中，我们提出了名为神经多槽拍卖（NMA）的新型拍卖机制，以应对上述挑战。具体而言，我们使用上下文感知列表式预测模块对全局外部性进行有效建模，以实现更好的性能。我们设计了一个列表式深度排名模块，以保证端到端学习中的激励兼容性。此外，我们提出了一个社会福利辅助损失，以在最大化收入的同时有效地减少社会福利的下降。在离线大规模数据集和在线A/B测试中的实验结果表明，NMA在工业实践中比其他现有拍卖机制（即GSP、DNA、WVCG）获得了更高的收入，同时平衡了社会福利，并且我们已成功将NMA部署在美团外卖平台上。

Contextual Generative Auction with Permutation-level Externalities for Online Advertising

研究背景
- 在线广告的重要性与拍卖机制：在线广告是互联网行业的核心收入来源，广告拍卖在确保平台收入和激励广告商方面起着关键作用。传统拍卖机制如GSP存在局限性，其独立CTR假设忽略了其他展示广告的影响，即外部性。
- 学习型拍卖的进展与局限：学习型拍卖如Deep Neural Auction（DNA）和Score Weighted VCG（SW-VCG）虽能更好地捕捉外部性，但受“分配后预测”设计范式限制，仅考虑候选广告集内的外部性（集合级外部性），未考虑最终分配中影响每个广告CTR的顺序上下文（排列级外部性），导致分配非最优。
方法设计
- 理论基础与问题建模
  - 多槽拍卖与排列级外部性：将在线广告拍卖抽象为多槽拍卖问题，考虑广告商出价、广告特征、用户特征等因素，定义分配规则和支付规则。引入排列级外部性，即广告的CTR受其他展示广告影响，且不同排列会导致外部影响的差异。
  - 最优多槽拍卖：基于Myerson拍卖理论，推导适应排列级外部性的最优拍卖机制，证明在满足一定条件下，该机制能最大化平台预期收入并满足激励兼容性（IC）和个体理性（IR）约束。
  - 拍卖设计为学习问题：由于直接实现最优分配规则计算复杂，将拍卖机制参数化，通过学习确定参数。引入事后遗憾（ex-post regret）概念，以量化广告商偏离IC条件的程度，将拍卖设计问题转化为最小化预期负收入并满足事后遗憾为零的约束优化问题。
- CGA框架设计
  - 生成器（Generator）：采用自回归生成模块，包括排列不变集级编码器和排列等变自回归解码器。编码器通过自注意力层和求和池化增强广告表示，解码器基于上下文嵌入学习条件概率，以生成最大化预期虚拟福利的广告序列。
  - 评估器（Evaluator）：预测每个广告的排列感知CTR，通过对广告序列嵌入进行双向LSTM和多头自注意力编码，结合预测阶段的逐点CTR，估计个性化外部性感知校准向量，与逐点CTR元素相乘得到排列感知CTR。
  - 支付计算（Payment Computation）：受神经网络在多物品拍卖中有效近似最优机制的启发，引入PaymentNet学习最优支付规则。PaymentNet的输入包括分配嵌入、自排除出价配置文件和预期价值配置文件，通过sigmoidal激活函数计算支付率，以满足IR约束并输出支付。
- 优化与训练
  - G-E框架优化：先训练Evaluator至收敛，然后冻结其参数，使用Evaluator估计的排列感知奖励通过策略梯度训练Generator，以最大化虚拟福利。
  - PaymentNet优化：在Generator和Evaluator收敛后，冻结它们的参数，应用增广拉格朗日方法解决约束优化问题，优化PaymentNet，尽管问题非凸，但实验表明优化后的CGA能接近最优收入且遗憾极小。
实验验证
- 实验设置
  - 数据集：使用来自淘宝的真实日志数据，包括训练集和测试集，每个样本涉及多个广告商竞争广告槽位，实验设置广告槽位数为3。
  - 基线方法：对比GSP、DNA、SW-VCG、VCG Auction with Permutation-level Externalities（VCG）、EdgeNet和Optimal等方法，根据外部性建模粒度分类。
  - 性能指标：考虑每千次展示收入（RPM）、点击率（CTR）和IC度量（衡量广告商操纵出价可获得的效用相对增加）。
  - 实现细节：设置CGA的特征嵌入大小、注意力机制、隐藏层大小等参数，通过Adam优化器训练，学习型基线方法通过网格搜索调优超参数。
- 离线比较结果
  - CGA在平台收入（RPM）和CTR方面优于现有方法，且事后遗憾较低，表明CGA能有效近似最优拍卖机制。
  - 随着外部性建模从无到集合级再到排列级的改进，拍卖性能在三个指标上均有提升，突出了精细建模外部性在拍卖设计中的重要性。
- 消融研究
  - CGA的各设计考虑有效，去除Evaluator或改变训练方式会导致性能下降，证明了G-E框架、外部奖励建模和虚拟价值使用的重要性。
  - 去除价值分布对CGA性能影响较小，可能是因为CGA对外部性的建模通过捕捉广告间相关性，部分反映了缺失的价值分布信息。
- 在线A/B测试结果
  - CGA在淘宝广告系统的在线A/B测试中表现良好，与DNA相比，RPM提升3.2%，平均响应时间仅增加3ms（相对增加1.6%），同时提高了广告商的投资回报率（ROI）、CTR和商品交易总额（GMV），表明CGA能通过生成模型有效探索分配空间，提升平台收入。
研究结论
- 提出CGA框架，用于在线多槽广告拍卖中考虑排列级外部性，理论上证明了经典Myerson拍卖在适应排列级外部性时的最优性，为CGA框架设计提供依据。
- CGA通过自回归生成模型和G-E学习范式优化分配，通过量化IC约束为预期事后遗憾学习最优支付规则，经离线和在线实验验证有效。
- 未来研究将扩展上下文生成机制，以整合来自不同渠道的异构项目。
  
  使用真实监督信号的方式虽然简单直接，但是此类方法只考虑了初始排序这一种排列方式上的物品间关系和用户反馈。假设有序列中有n个物品，其余n!-1种排列方式都被模型忽略，不利于寻找最优排序。
  refer

基于listwise模型的rerank的实现方法。而在listwise模型中根据做法的不同又可以分为序列生成式、基于序列表征pointwise式、半生成式、两段式和强化学习等几种不同的方案。

model方法

基于序列表征，pointwise打分

这一大类有一个共同的特点，都是以上层精排的输出序列作为输入，在模型结构上借助RNN等序列结构来引入item序列之间的影响。进一步的通过attention的方式来捕捉item之间的相互影响。典型的如DLCM模型。而在阿里的PRM中进一步地将用户的个性化向量通过和item结合的方式引入模型中。这些模型第二个共同特点是最终线上对item的打分还是pointwise的，直接输出序列中每个item的分数，根据分数从高到低排序。

DLCM

alt text
refer
DLCM模型主要包含3个步骤：

使用传统的LTR模型检索Top N个doc，具体做法将查询-文档对 $(q,d)$ 转化特征向量 $\mathbf{x}_{(q,d)}$，然后使用全局排序函数 $f$ 计算查询 $q$ 的Top N个doc的列表 $R_q^n$
使用GRU对Top N个doc的特征向量 $\mathbf{x}_{(q,d)}$ 进行编码，从低位置到高位置，一步一步地输入进GRU中，最终产生一个隐向量 $s_n$ 和n个隐层输出 $o_i$， $i \in [1,n]$。这个局部模型被称为local context model - $I(R_q,X_q)$，输出被称为local ranking context
该步为对Top N个doc进行重排序，使用的是local ranking function (局部排序函数) $\phi$，并且该函数的输入为 $s_n$ 和 $o$

PRM

alt text

用transformer来克服RNN距离遗忘的问题，从而显式建模item之间的相互影响
在transformer中加入用户兴趣的建模 (Transformer equipped with personalized embedding)
其中个性化LTR Loss形式:

$$\mathcal{L} = \sum_{r\in\mathcal{R}} \ell({y_i, P(y_i|X,PV;\hat{\theta})|i\in\mathcal{S}_r})$$

PV矩阵会和输入模型的初始item特征矩阵拼接，PV矩阵由预训练模型(CTR预估模型)产生

具体模型

Challenges

重排序后的评分困难：无法为每个反事实列表获取反馈
指数级时间复杂度：组合优化问题，存在n!种可行排列

评估生成范式

评估器(Evaluator)：Evaluate listwise utility
生成器(Generator)：Generate feasible permutations

SetRank

序列生成

上面的那些方法都是基于预估分数重排，而下面的这些方法主要利用 RNN 直接生成重排序。

seq2slate

考虑了前序信息，通过 RNN 来提取前序信息，再通过 pointer network 来从输入商品列表中一步步地生成最终推荐列表。训练时采用 REINFORCE 算法去训练，并且用的是监督式的方法去训练。
ptrnet：比如求第一个位置，就和encoder部分的都求一遍权重，和第一个关系最大，就输出1，没有词汇表，输出从输入里面选

alt text

GRN

Two-Stage

SetToSeq

PIER

alt text

RL

从action space的角度出发，基于RL的混排模型可以分为以下两类:

离散action space

以不同类型结果的mix pattern为action space
代表工作: Cross DQN: Cross Deep Q Network for Ads Allocation in Feed
实现方式:
- 每种内容的结果经过精排后形成内部有序队列，如:
  - A=(a1,a2,a3,a4)
  - B=(b1,b2,b3,b4)
  - C=(c1,c2,c3,c4)
- RL model的action space是不同类型内容的混排pattern
- 每种混排结果对应一种结果类型的mix pattern
- 示例:mix pattern = AABCB，输出mix list=a1-a2-b1-c1-b2
- action space size = x^N (x为结果类型数,N为混排list长度)
- state包含user side info和当前各队列候选list等context
- 特例:某些场景需要决定是否在首位透出广告/直播,此时action space简化为透出/不透出

连续action space

以多目标融合公式的加权系数作为action space
代表工作: Multi-Task Fusion via Reinforcement Learning for Long-Term User Satisfaction in Recommender Systems
实现方式:
- 精排后每种内容的混排分由统一的多目标融合公式给出
- 示例:mix_score = w1 * ctr + w2 * wtr + w3 * ltr
- RL学习个性化权重wi
- 采用non-Deterministic Policy Gradient时,w由学习的均值mu和方差sigma决定
- state包含user side和context信息

三、方案比较

A方案(离散action space)特点:
- 一般采用double-DQN等模型
- action space不宜过大(需要对离散空间取max)
- 便于控制不同类型结果比例
- 适合流量调控(根据mix pattern修正reward)
B方案(连续action space)特点:
- 基于多目标融合公式进行混排
- RL用于动态调整系数,实现个性化
- 需要处理不同内容pxtr的量纲不一致问题
- non-Deterministic Policy的方差可提供探索能力

京东

refer
基于强化学习的序列优化
alt text

alt text
序列生成和评估模型结构包含两个主要部分:

序列评估模型

底层进行特征抽取,使用Point DNN结构对每个item单独抽取特征
Point DNN将稀疏的embedding转化为dense feature,得到item的特征向量
在序列评估模型中,将序列对应的向量抽取组成序列
对序列进行attention操作,突出最相关的特征
输出每个item的预估点击率,与出价、多样性等业务指标融合得到最终得分

序列生成模型

输入:将整个候选集合作为生成模型的输入
特征处理:
- 对候选集中所有item特征做max pooling得到候选集合的特征向量
- 将集合特征向量与每个item的特征向量拼接得到新特征
- 新特征经过多层DNN处理得到概率矩阵

如图举例，假设一共有五个item，序列长度是四。如上图左上的表格，按行来看表示的是每一个item出现在当前这个位置的概率，按列来看表示的是item出现在不同位置的概率。模型训练使用2D softmax的交叉熵loss。如果一个item在候选集里被选中了，并且是出现在第一个位置，它的第一个位置的label就是1。如图，SKU1在第一个位置label是1，SKU2在第三个位置label是1。训练完成的模型在线上预测过程中预测采样频率，用一个受控的temperature参数来控制这个采样频率。按照这个表去生成序列，逐个位置去采样多次生成多个序列。举例来说，生成第一个位置需要的SKU，类似扔一个骰子，如果小于0.9，SKU1被选中，如果是0.9到1，SKU2被选中。第二个位置去除第一个位置已经出现过的SKU，进行重新归一化，再采样一次，这样可以生成多个候选序列。再把这些候选序列与启发式的或者随机生成的序列融合起来，变成一个序列的候选集，统一交给序列的评估模型去评估，选出一个最好的序列。

美团

（页面级序列建模）Deep Page-Level Interest Network in Reinforcement Learning for Ads Allocation.

Accepted by SIGIR2022
alt text

（多通道建模）Cross DQN: Cross Deep Q Network for Ads Allocation in Feed

alt text

Reinforcement Learning to Rank with Pairwise Policy Gradient

这篇论文关注的是信息检索（IR）中的文档排序模型的强化学习（RL）。其中一个分支的方法是将排序过程形式化为马尔可夫决策过程（MDP），并通过策略梯度来确定模型参数。尽管这些方法已经取得了一些初步的成功，但它们仍未完全实现其潜力。现有的策略梯度方法直接使用采样文档列表的绝对性能分数（回报）在其梯度估计中，这可能导致两个限制：1) 无法反映同一查询内文档之间的相对优劣，而这通常与信息检索排序的本质更接近；2) 产生高方差的梯度估计，导致学习速度慢和排序准确性低。为了解决这些问题，本文提出了一种新的策略梯度算法，即成对策略梯度（Pairwise Policy Gradient, PPG），该算法使用同一查询下采样的两个文档列表进行成对比较来确定梯度。PPG算法重复采样文档列表对，通过成对比较估计梯度，并最终更新模型参数。理论分析表明，PPG能够做出无偏且低方差的梯度估计。实验结果也证明了在搜索结果多样化和文本检索方面，相比现有最先进基线方法，PPG有显著的性能提升。

个性化

Multi-Level Interaction Reranking with User Behavior History

该研究关注的是多阶段推荐系统（MRS）的最终阶段——重排序（reranking），其直接关系到用户的体验和满意度，在MRS中扮演着关键角色。尽管现有工作已经取得了一定的进步，但仍有三个问题尚未得到解决：

用户历史行为中的偏好信息未被充分利用：用户的历史行为包含丰富的偏好信息，例如用户的长期和短期兴趣，但在重排序过程中并未被充分挖掘。以往的工作通常将历史记录中的项目视为同等重要，忽略了历史与候选项目之间的动态交互。
现有的重排序模型主要关注项目级别的交互，而忽略了特征级别的细粒度交互：这导致了对项目之间细微影响的捕捉不足，从而影响了重排序的效果。
在重排序前对初始有序列表进行评分可能导致过早评分问题：这种做法可能会产生次优的重排序性能，因为评分是在固定顺序下进行的，未能充分考虑到不同排列可能带来的不同效果。

为了解决上述问题，本文提出了一种名为多层次交互重排序（Multi-level Interaction Reranking, MIR）的框架。MIR结合了低级别的跨项目交互和高级别的集到列表交互，其中将待重排序的候选项目视为一个集合，而将用户按时间顺序的行为历史视为一个列表。我们设计了一个新颖的SLAttention结构来建模集到列表的交互，并融合个性化长短期兴趣。此外，为了捕捉项目之间的细粒度影响，我们还引入了特征级别的交互。MIR的设计确保了输入项目的任何排列不会改变输出排名，这一点我们在理论上也进行了证明。

具体模型

PRM具体模型

4.2 Input Layer (输入层)

**Personalized Vector (PV)**：个性化向量
- 尽管精排队列给出的列表已经有部分个性化结果了，但对于整个用户的个性化结果来说，还不够
- 本文拼接原始的特征向量X与用户个性化的向量PV(图1b)，从而重排阶段引入用户个性化
**Position Embedding (PE)**：位置向量
- 为了利用精排队列中的items的序列信息，本文引入位置编码向量PE(可学习)
- 使用方式与[X;PV]+PE
- 在输入向量之后使用FFN进行编码与维度转换，得到图1b中输入层最后的e

4.3 Encoding Layer(编码层)

编码层目的是学习items对与额外信息(用户偏好、items初始列表)之间的交互(图1a)
本文使用N层Transformer进行编码，主要考虑到了:
- TRM的并行
- self-attention不会依赖item之间的距离等因素
从图1a可以看出，本文使用的Transformer block与原论文基本一致，也是用到了Multi-head Self-Attention，FFN等结构

4.4 Output Layer(输出层)

输出层目标是为每个item打出一个重排得分
此处最终使用softmax函数进行输出
输出结果为点击每个item的概率
训练模型时，本文使用点击相关数据完成训练，最终损失函数为交叉熵
$$\mathcal{L} = \sum_{r\in\mathcal{R}} \ell({y_i, P(y_i|X,PV;\hat{\theta})|i\in\mathcal{S}_r})$$

4.5 Personalized Module(个性化模块)

直观来说，可以直接用PRM来端到端学习用户个性化向量PV
然而在重排阶段学习PV，缺少了用户的通用偏好信息
因此本文使用预训练模型生成用户个性化向量(图1c)
- 输入为用户的点击序列items(H)，当前item与用户user的信息(性别、年龄、购买力等)
- 训练数据仍然使用点击数据
- 损失函数为二分类交叉熵
- 最终取sigmoid之前层网络的输出结果作为用户个性化向量PV
由于是CTR任务，作者也建议使用FM、FFM、DeepFM、DCN、FFN、PNN等用来学习PV

Budget&Dynamic

发表于 2024-12-24 更新于 2024-12-31 分类于 research

An efficient multi-item dynamic auction with budget constrained bidders

摘要

拍卖人出售多个不可分割物品给潜在投标人，投标人有估值但可能受预算约束，瓦尔拉斯均衡可能不存在。本文提出新颖动态拍卖，能找到核心分配，其包含物品分配与支持价格向量，可实现帕累托效率且对联盟偏离威胁有鲁棒性，拍卖中价格过高时可降低。

要点

模型构建
- 包含卖家和多个潜在投标人，卖家有不可分割物品，投标人对物品有估值和预算，且预算为私有信息，定义了相关概念如价格向量、分配、瓦尔拉斯均衡等，还阐述了核心和严格核心概念及性质。
动态拍卖机制
- 投标人提交出价，拍卖人据出价选分配和价格，投标人再更新出价，重复至无人更新。该拍卖与其他拍卖相比有独特之处，如价格调整灵活、允许降出价等。
- 证明了拍卖在有限轮终止，且终止时结果为核心分配，在无预算约束时为严格核心分配且分配完全有效。

实验方法

通过理论分析和举例说明的方式，如在阐述模型时举了多个例子说明不同情况下的市场均衡和核心分配情况，在证明拍卖相关性质时运用了数学推导和逻辑推理。

AuctionNet: A Novel Benchmark for Decision-Making in Large-Scale Games

摘要：决策制定在大规模游戏中是人工智能的重要研究领域，本文提出AuctionNet基准，用于大规模广告拍卖中的出价决策。它由广告拍卖环境、预生成数据集和基线出价决策算法性能评估三部分组成。环境通过多个模块交互复制真实拍卖的完整性和复杂性，数据集包含众多代理竞争轨迹，还评估了多种基线算法性能，该基准已应用于NeurIPS 2024竞赛。
要点
- 决策问题：关注广告拍卖中的自动出价问题，用部分可观测随机博弈（POSG）公式化问题，优化目标是在预算约束下最大化价值。
- 广告拍卖环境：包含广告机会生成、出价和拍卖等模块。广告机会生成模块用深度生成模型生成数据，降低与现实差距并避免敏感数据暴露；出价模块模拟广告主竞争，实现多种算法；拍卖模块基于经典GSP拍卖，支持多种规则和多广告位特性。
- 预生成数据集：基于环境生成，包含大量广告剧集、机会和记录，可用于深入了解拍卖生态，分析印象值随时间变化及不同类别关系。
- 基线算法评估：评估了线性规划、强化学习和生成模型等基线算法性能，如Online LP表现较好，IQL和BC等有优化潜力。
实验方法
- 环境构建与交互：将广告机会按时间划分决策步骤，代理依次出价，环境提供最终性能，通过多个模块交互实现真实拍卖模拟。
- 数据集生成与分析：使用深度生成模型生成数据，通过PCA可视化、分析价值分布和字段连接等方式验证生成数据与真实数据的相似性，生成的数据集用于分析不同类别印象值变化及关系。
- 算法评估：在基本任务和目标CPA任务中评估基线算法，比较不同算法性能，未对方法针对自动出价任务进行特殊优化。

Reinforcement Mechanism Design: With Applications to Dynamic Pricing in Sponsored Search Auctions

摘要

在赞助搜索中，标准机制是广义第二价格（GSP）拍卖，但存在非收入最优问题。本文研究个体和组织互动的社会系统，以赞助搜索拍卖为背景，结合机制设计和人工智能工具解决搜索引擎动态定价问题。通过训练买家行为模型，将动态定价问题建模为马尔可夫决策过程（MDP），应用强化学习算法优化储备价格，实验表明该模型优于多种静态和动态优化策略。

研究背景
- 赞助搜索拍卖现状：在线销售广告是搜索引擎公司的盈利模式，如谷歌和百度。用户搜索时，搜索引擎展示广告，广告商竞价竞争位置，按点击付费。常见的广义第二价格（GSP）拍卖机制存在收入非最优问题，且多数收入优化理论基于竞标者理性行为假设，但实际中该假设常不成立。
- 相关研究不足：新兴研究关注竞标者使用学习算法的情况，但多数模型未详细描述竞标者实际行为，难以捕捉异质竞标者群体的不同理性水平。
研究方法
- 强化机制设计：提出混合方法，结合机制设计理论和机器学习技术。先依据机制设计理论用参数描述机制，再用优化算法寻找最优参数；同时用机器学习算法构建精确的竞标者行为模型，将机制参数作为输入，考虑机器学习和战略竞标者行为。
- 构建竞标者行为模型
  - RNN模型：基于循环神经网络（RNN）构建，输入包括连续m天的关键绩效指标（KPI）、竞标者的出价分布及日期相关特征。RNN输出经全连接层和softmax激活函数转换为有效概率分布。为简化出价分布表示，将其离散为100维向量。KPI统计数据取对数并用tile - coding编码，以捕捉竞标者对相对变化的关注。同时包含公共特征集，如日期相关特征，因多数广告商有季节性广告活动。
  - 数学表述为马尔可夫模型：采用时间齐次马尔可夫模型解释RNN - 基于竞标者行为模型，即竞标者下一时间步的出价分布是前m个时间步出价分布和KPI的函数，该模型符合文献及百度实际观察。
- 强化机制设计框架
  - 问题表述为MDP：将动态机制设计问题表述为马尔可夫决策过程（MDP），其中竞标者出价分布为状态，储备价格为行动。目标是选择一系列储备价格配置文件以最大化贴现收入总和。
  - 优化算法：虽存在最优储备定价方案，但精确计算成本高。通过限制关注少数主要竞标者的关键词及仅探索当前储备价格小邻域内的行动来降低计算复杂度，并采用蒙特卡洛树搜索（MCTS）算法，通过限制搜索深度和搜索轨迹数量有效控制计算复杂性。
实验设计与结果
- 实验设置：选择400个具有特定属性（日查询量大且稳定、大部分收入由最多3个竞标者贡献）的关键词，提取8个月的竞价数据（超70TB）。对每个关键词关注3个主要竞标者，为其构建LSTM网络，设置时间步为1天，用90%数据训练，10%测试，以平均交叉熵为性能指标，用ADAM优化器优化。MCTS算法中探索储备价格为当前储备价格的0.95、1.0和1.05倍，设置相关参数如λ = 0.8、搜索深度为5等。
- 结果分析
  - 策略比较：动态策略（MCTS）优于所有静态策略（如STATIC OPT、BAIDU、STATIC 50）及动态策略（GREEDY和POLICY GRAD）。BAIDU曲线快速收敛；STATIC OPT曲线先升后降；之前百度在线实验表明STATIC OPT短期内收入高但长期下降，与模拟结果相符，证明竞标者行为模型准确性。激进定价方案短期内收入高但长期下降，因竞标者对储备价格变化作出反应。GREEDY和POLICY GRAD算法表现良好，虽稍逊于MCTS但更简单、计算成本低，表明竞标者可能不太具战略性。
  - 储备价格更新频率影响：MCTS算法中，更新储备价格频率越低（Δt越大），收入越高且收敛越快。GREEDY算法性能与Δt = 3时的MCTS算法几乎相同。
研究结论
- 提出结合机制设计和人工智能技术的动态定价框架，不依赖多数理论分析中的不现实假设，采用数据驱动方法解决理论市场设计问题。
- 框架包含竞标者行为模型（RNN）和优化算法（MCTS），迭代寻找最优机制参数，通过模拟拍卖估计未来目标。
- 在中国主要搜索引擎百度的真实竞价数据实验中，该框架显著提高收入，已被百度采用并证明能增加收入。

A dynamic auction for multi-object procurement under a hard budget constraint

摘要

本论文重新审视了政府机构分配研发补贴的问题。通常，申请人的财务约束属于私人信息。已有文献建议采用拍卖方式，以减少信息租金，从而提高稀缺公共资金的分配效率。针对这一采购问题，我们提出了一种新的开放式时钟拍卖。这种拍卖在战略上较为简单，因为它在占优策略中体现了说实话的特性，并且在遵守预算约束的同时满足事后理性。我们通过蒙特卡洛模拟对该拍卖进行了测试，并讨论了其适用性和局限性。此外，我们还强调了与计算机科学最新进展的联系。

研究背景
- 创新与市场失灵：创新存在市场失灵特性，如不可分割性、不可占有性和不确定性，私人企业研发投资常非社会最优，政府采用多种政策工具干预，其中直接补贴私人研发尤为重要，如美国小企业创新研究计划（SBIR）。
- 补贴效果与问题：公共研发资金对社会有益，有直接资助和“光晕”或信号效应等好处，但现有补贴分配实践存在问题，如未充分考虑项目性价比，可能导致资金浪费，同时政府政策可能受游说或政治压力扭曲。
模型构建
- 参与者与物品：政府机构为“买家”，申请人为“卖家”，卖家有不可分割物品（研究提案），有私知保留价格(\theta_{i})，提交财务出价(b_{i})，买家有固定预算(B)。
- 质量等级与权重：为评估买家效用，给每个申请人项目设定质量等级及相对权重（如A项目权重1，B项目0.7等），资金决策基于这些等级，实际质量在决策时不确定。
- 买家效用与目标：买家目标是在预算约束下最大化采购物品总质量，效用函数为(u_{buyer}(\mathcal{A})=\sum_{j \in \mathcal{A}} w_{j}=\sum_{i \in \mathcal{I}} q_{i} w_{i}, q_{i} \in{0,1})，完全信息下的最优分配是解决相关二进制背包问题。
拍卖机制
- 初始设置：申请人给定财务起始出价(\bar{b}{i})（如当前补贴或匹配赠款），起始出价除以质量得到初始价格质量比(\bar{r}{i})。
- 拍卖过程：采用开放递减时钟拍卖，时钟从最高初始价格质量比开始倒计时，投标人可随时退出且不能再进入。只要活跃投标人财务出价总和超预算，倒计时继续，直到预算能容纳剩余活跃出价或正好耗尽预算时拍卖结束。
- 支付与结果：输家保留物品无支付，赢家根据拍卖结束方式获得支付（若因退出结束，支付由退出者最终价格质量比决定；若因耗尽预算结束，支付用完预算）。该机制中，说实话是占优策略，满足预算约束且事后个体理性。
模拟分析
- 模拟设置：通过蒙特卡洛模拟，假设卖家采用占优策略均衡，对模型参数做多种假设，随机抽取储备价格和信息租金，比较动态拍卖（DA）与最优分配（FB）和现状分配（SQ）。
- 模拟结果
  - 信息租金影响：DA旨在减少信息租金，在无信息租金时，DA近似FB且优于SQ；信息租金越大，DA相对SQ优势越明显。
  - 福利权重影响：B和C项目福利权重越高，SQ分配误差越大，因SQ过于重视A项目，而DA分配规则能适应福利权重变化。
  - 预算规模影响：预算增加时，SQ和DA性能都提升，但SQ对预算变化更敏感。
  - 储备价格分布影响：多数情况下，储备价格分布假设对SQ和DA相对性能影响不大，DA性能相对稳定，集中在FB的70 - 75%，而SQ在某些情况下性能较差。总体而言，DA对参数变化不太敏感，跟踪误差主要源于信息租金，SQ则因基本分配误差对假设变化敏感。
讨论与结论
- 适用性与局限性：论文基于前人对研发补贴分配的研究，改进拍卖设计简化战略问题，提供稳健预测。假设虽合理但现实中可能被违反，如引入拍卖可能改变申请人行为，导致项目性质、成本超支和作弊风险变化；模型假设项目为完美替代品可能扭曲分配，但偏离该假设会使评估和拍卖难以实施；改变补贴分配方式可能影响高质量申请人数量，但平均质量下降可能仍意味着福利改进；理论上更多参与者应改善拍卖分配，但实践中需平衡项目数量与政策目标及项目启动延迟问题；光环或认证效应使拍卖更理想，但可能降低补贴项目平均质量。
- 实施与建议：实施拍卖需程序管理选择质量等级和福利权重，申请人准备提案并确定储备价格，拍卖实施相对简单且能增加资金决策透明度。使用拍卖的利弊因具体情况而异，需在现实中测试并评估效果，机制适用性取决于创新类型、目标群体和政策目标等因素，理论结果也可能适用于研发资金以外场景。

Spending Programmed Bidding: Privacy-friendly Bid Optimization with ROI Constraint in Online Advertising

摘要

隐私政策使得实时且精确的用户数据无法追踪，这扰乱了价值数十亿美元的在线广告市场，给在线广告行业中受投资回报率（ROI）约束的产品优化带来了重大挑战。隐私保护策略，包括事件聚合和报告延迟，阻碍了对详细和即时反馈数据的获取，从而使传统的身份揭示归因技术无法发挥作用。在本文中，我们引入了一种新颖的支出程序化出价（SPB）框架来应对这些挑战。SPB是一个两阶段框架，将长期投放支出规划（宏观阶段）和短期出价执行（微观阶段）分开。宏观阶段对目标ROI进行建模以实现最大效用并得出预期支出，而微观阶段则在给定预期支出的情况下优化出价价格。我们进一步将我们的框架扩展到跨渠道场景，在该场景中，代理在受隐私约束和身份揭示归因渠道中进行出价。我们发现，当存在受隐私约束的渠道时，SPB在离线数据集和大型广告平台的在线实验中均优于最先进的出价方法。
“Spending Programmed Bidding: Privacy-friendly Bid Optimization with ROI Constraint in Online Advertising”由Yumin Su、Min Xiang等人撰写，提出了一种创新的在线广告出价框架Spending Programmed Bidding (SPB)，以解决隐私保护下ROI约束的出价优化问题。

研究背景
- 隐私政策影响广告效果：隐私政策使实时精准用户数据难以追踪，影响在线广告的ROI优化。如苹果的PCM和SKAN策略虽保护隐私，但存在事件聚合和报告延迟问题，影响广告投放和效果评估。
- 现有方法的局限性：传统身份揭示方法受隐私约束，在解决报告延迟、依赖实时数据等问题上存在局限，如CVR预测模型、PID、MPC和RL等方法在隐私场景中效果不佳。
研究方法
- 问题定义与数学表示：基于在线随机背包问题定义，目标是在ROI和花费约束下最大化GMV，给出了相关数学公式和符号定义。
- 隐私场景挑战：隐私政策导致拍卖中(c_i)和(wp_i)获取困难，使问题面临粗粒度、滞后性和随机性挑战，影响传统优化方法和实时反馈控制方法的适用性。
- SPB框架
  - 两阶段分解：将在线出价过程分为宏观和微观阶段。宏观阶段根据长期数据规划最优花费(S^{(opt)})，微观阶段基于(S^{(opt)})生成实时出价价格，有效应对隐私场景挑战。
  - 阈值算法（THRESHOLD）：一种贪婪算法，在特定条件下可近似解决问题，通过确定阈值(R_{thr})计算最优出价，SPB算法对其改进以适应隐私场景。
  - 宏观花费规划：通过探索最优GMV和最优ROI的关系，构建函数关系计算最优花费，利用长期累积数据应对隐私挑战，通过多日数据聚合和拟合确定函数参数。
  - 微观出价优化：在宏观确定总体最优花费基础上，通过预算分配获得短期最优花费，利用IMPC方法构建(R_{thr})和花费(P_S)的线性插值模型计算最优出价，具有无累积误差、无需先验函数分布、稳健便携等优点。
  - 多渠道推广：将SPB扩展到多渠道场景，宏观部分联合求解各渠道最优花费，微观部分独立应用IMPC算法计算出价，通过定理4确定各渠道(R_{thr})相等时整体(P_G)最大。
实验验证
- 实验设置：使用TikTok广告平台工业数据集和模拟隐私数据集，定义预算拆分实验机制，介绍SPB方法设置。
- 性能评估指标：根据ROI和花费利用率将广告活动分组，通过计算GMV和花费评估出价方法性能。
- 对比出价方法：对比BidCap、MPC和SPB三种出价方法。
- 实验结果
  - 在线实验：SPB在Accomplish组提高GMV和收入，在Violation组降低GMV和收入；在隐私约束场景表现良好，尤其在SKAN归因活动中；对ROI波动容忍度降低时，Violation组GMV比例增加较小，GMV分布更倾向于(R_{res}/R_{target}>1)。
  - 离线实验：SPB在Accomplish组增强GMV，在Violation组降低GMV；在不同延迟下，Accomplish组比例高且随延迟增加优势更明显，Violation组GMV比例增加缓慢；在离线环境中，GMV分布更集中于(R_{res}/R_{target}=1)，能产生更多(R_{res}/R_{target}≥1.0)的GMV。
研究结论
- 提出的SPB框架有效解决隐私保护下ROI约束的出价优化问题，在离线和在线实验中表现优于现有方法。
- 未来将探索更隐私敏感的广告市场平衡。

多进程

发表于 2024-10-24 分类于 Interview

这里有东西被加密了，需要输入密码查看哦。

阅读全文 »

KDD2024 adv

发表于 2024-10-10 更新于 2025-01-04 分类于 research

KDD 2024 工业界搜广推（广告）工作整理

参考

Alibaba

生成式出价 | Generative Auto-bidding via Conditional Diffusion Modeling

利用条件扩散模型进行自动出价，提高在线广告的效率。

Jiayan Guo (Peking University, Alibaba Group); Yusen Huo (Alibaba Group); Zhilin Zhang (Alibaba Group); Tianyu Wang (Alibaba Group); Chuan Yu (Alibaba Group); Jian Xu (Alibaba Group); Bo Zheng (Alibaba Group); Yan Zhang (Peking University)

因果推断 | CURLS: Causal Rule Learning for Subgroups with Significant Treatment Effect

针对具有显著处理效应的子群体的因果规则学习。

Jiehui Zhou (State Key Lab of CAD&CG, Zhejiang University, DAMO Academy, Alibaba Group); Linxiao Yang (DAMO Academy, Alibaba Group); Xingyu Liu (State Key Lab of CAD&CG, Zhejiang University); Xinyue Gu (DAMO Academy, Alibaba Group); Liang Sun (DAMO Academy, Alibaba Group); Wei Chen (State Key Lab of CAD&CG, Zhejiang University)

合约广告 | Bi-Objective Contract Allocation for Guaranteed Delivery Advertising

合约广告的双目标合同分配问题。

an Li (Key Laboratory of System Software (Chinese Academy of Sciences) and State Key Laboratory of Computer Science, Institute of Software, Chinese Academy of Sciences, School of Computer Science and Technology, University of Chinese Academy of Sciences); Yundu Huang (Alibaba Group); Wuyang Mao (Alibaba Group); Furong Ye (Key Laboratory of System Software (Chinese Academy of Sciences) and State Key Laboratory of Computer Science, Institute of Software, Chinese Academy of Sciences); Xiang He (Key Laboratory of System Software (Chinese Academy of Sciences) and State Key Laboratory of Computer Science, Institute of Software, Chinese Academy of Sciences, School of Computer Science and Technology, University of Chinese Academy of Sciences); Zhonglin Zu (Alibaba Group); Shaowei Cai (Key Laboratory of System Software (Chinese Academy of Sciences) and State Key Laboratory of Computer Science, Institute of Software, Chinese Academy of Sciences, School of Computer Science and Technology, University of Chinese Academy of Sciences)

拍卖广告 | Truthful Bandit Mechanisms for Repeated Two-stage Ad Auctions

为重复两阶段广告拍卖设计真实性多臂老虎机机制。

Haoming Li (Shanghai Jiaotong University); Yumou Liu (The Chinese University of Hong Kong, Shenzhen); Zhenzhe Zheng (Shanghai Jiao Tong University); Zhilin Zhang (Alibaba Group); Jian Xu (Alibaba Group); Fan Wu (Shanghai Jiao Tong University)

Bytedance

出价 | Spending Programmed Bidding: Privacy-friendly Bid Optimization with ROI Constraint in Online Advertising

Yumin Su (ByteDance Inc.); Min Xiang (ByteDance Inc.); Yifei Chen (ByteDance Inc.); Yanbiao Li (ByteDance Inc.); Tian Qin (ByteDance Inc.); Hongyi Zhang (ByteDance Inc.); Yasong Li (ByteDance Inc.); Xiaobing Liu (ByteDance Inc.)

Tencent

排序增强的uplift | Rankability-enhanced Revenue Uplift Modeling Framework for Online Marketing

Bowei He (City University of Hong Kong); Yunpeng Weng (FiT, Tencent); Xing Tang (FiT, Tencent); Ziqiang Cui (City University of Hong Kong); Zexu Sun (Renmin University of China); Liang Chen (FiT, Tencent); Xiuqiang He (FiT, Tencent); Chen Ma (City University of Hong Kong)

Meituan

拍卖 | Joint Auction in the Online Advertising Market

Zhen Zhang (Gaoling School of Artificial Intelligence, Renmin University of China); Weian Li (School of Software, Shandong University); Yahui Lei (Meituan Inc.); Bingzhe Wang (Gaoling School of Artificial Intelligence, Renmin University of China); Zhicheng Zhang (Gaoling School of Artificial Intelligence, Renmin University of China); Qi Qi (Gaoling School of Artificial Intelligence, Renmin University of China); Qiang Liu (Meituan Inc.); Xingxing Wang (Meituan Inc.)

因果推断 | Decision Focused Causal Learning for Direct Counterfactual Marketing Optimization

Hao Zhou (State Key Laboratory for Novel Software Technology, Nanjing University, Meituan); Rongxiao Huang (State Key Laboratory for Novel Software Technology, Nanjing University); Shaoming Li (Meituan); Guibin Jiang (Meituan); Jiaqi Zheng (State Key Laboratory for Novel Software Technology, Nanjing University); Bing Cheng (Meituan); Wei Lin (Meituan)

Google

LLM用于拍卖 | Auctions with LLM Summaries

Avinava Dubey (Google Research); Zhe Feng (Google Research); Rahul Kidambi (Google Research); Aranyak Mehta (Google Research); Di Wang (Google Research)

Shopee

广告校准 | Deep Ensemble Shape Calibration: Multi-Field Post-hoc Calibration in Online Advertising

Shuai Yang (Shopee Discovery Ads); Hao Yang (Shopee Discovery Ads); Zhuang Zou (Shopee Discovery Ads); Linhe Xu (Shopee Discovery Ads); Shuo Yuan (Shopee Discovery Ads); Yifan Zeng (Shopee Discovery Ads)

AMD:

1.原版

@misc{conitzer2002complexitymechanismdesign,
      title={Complexity of Mechanism Design}, 
      author={Vincent Conitzer and Tuomas Sandholm},
      year={2002},
      eprint={cs/0205075},
      archivePrefix={arXiv},
      primaryClass={cs.GT},
      url={https://arxiv.org/abs/cs/0205075}, 
}
@inproceedings{conitzer2004self,
  title={Self-interested automated mechanism design and implications for optimal combinatorial auctions},
  author={Conitzer, Vincent and Sandholm, Tuomas},
  booktitle={Proceedings of the 5th ACM Conference on Electronic Commerce},
  pages={132--141},
  year={2004}
}
@inproceedings{sandholm2003automated,
  title={Automated mechanism design: A new application area for search algorithms},
  author={Sandholm, Tuomas},
  booktitle={International Conference on Principles and Practice of Constraint Programming},
  pages={19--36},
  year={2003},
  organization={Springer}
}
@article{sandholm2015automated,
  title={Automated design of revenue-maximizing combinatorial auctions},
  author={Sandholm, Tuomas and Likhodedov, Anton},
  journal={Operations Research},
  volume={63},
  number={5},
  pages={1000--1025},
  year={2015},
  publisher={INFORMS}
}

2.本文研究了在线广告平台中的两阶段拍卖架构，该架构用于在低延迟下向用户传递个性化广告。第一阶段从完整的广告池中高效选择一小部分有潜力的广告。第二阶段在子集中进行拍卖以确定展示的广告，使用第二阶段机器学习模型的点击率预测。研究了第一阶段子集选择策略的在线学习过程，并确保在重复的两阶段广告拍卖中具有博弈论属性。提出了一种新的实验设计，即“集群多重随机化设计”（cMRD），它在客户和搜索查询群集级别独立随机化，允许在单一实验中同时衡量定价变化的直接和间接效果。

@inproceedings{li2024truthful,
  title={Truthful Bandit Mechanisms for Repeated Two-stage Ad Auctions},
  author={Li, Haoming and Liu, Yumou and Zheng, Zhenzhe and Zhang, Zhilin and Xu, Jian and Wu, Fan},
  booktitle={Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining},
  pages={1565--1575},
  year={2024}
}

3.regret的一坨

@article{dutting2024optimal,
  title={Optimal auctions through deep learning: Advances in differentiable economics},
  author={D{\"u}tting, Paul and Feng, Zhe and Narasimhan, Harikrishna and Parkes, David C and Ravindranath, Sai Srivatsa},
  journal={Journal of the ACM},
  volume={71},
  number={1},
  pages={1--53},
  year={2024},
  publisher={ACM New York, NY}
}

衍生

@inproceedings{duan2022context,
  title={A context-integrated transformer-based neural network for auction design},
  author={Duan, Zhijian and Tang, Jingwu and Yin, Yutong and Feng, Zhe and Yan, Xiang and Zaheer, Manzil and Deng, Xiaotie},
  booktitle={International Conference on Machine Learning},
  pages={5609--5626},
  year={2022},
  organization={PMLR}
}
@article{ivanov2022optimal,
  title={Optimal-er auctions through attention},
  author={Ivanov, Dmitry and Safiulin, Iskander and Filippov, Igor and Balabaeva, Ksenia},
  journal={Advances in Neural Information Processing Systems},
  volume={35},
  pages={34734--34747},
  year={2022}
}

“[A Context-Integrated Transformer-Based Neural Network for Auction Design](A Context-Integrated Transformer-Based Neural Network for Auction Design | 一个田螺突然就 (2010727302.github.io))” 介绍了一种基于Transformer模型的神经网络，该网络能够整合上下文信息来设计拍卖机制。这种方法能够更好地适应动态变化的市场环境和参与者的多样性。

introduces a neural network based on the Transformer model that integrates contextual information to design auction mechanisms. This approach better adapts to the dynamic market environment and the diversity of participants.
“Optimal-er Auctions through Attention” 则专注于利用注意力机制来改进拍卖设计。通过关注关键的拍卖参数和参与者特征，该研究提出了一种能够自动调整拍卖规则以适应不同场景的算法。

focuses on improving auction design using attention mechanisms. By focusing on key auction parameters and participant features, the study proposes an algorithm that can automatically adjust auction rules to fit different scenarios.

with constraints

@inproceedings{feng2018deep,
  title={Deep learning for revenue-optimal auctions with budgets},
  author={Feng, Zhe and Narasimhan, Harikrishna and Parkes, David C},
  booktitle={Proceedings of the 17th international conference on autonomous agents and multiagent systems},
  pages={354--362},
  year={2018}
}

4.joint

@inproceedings{zhang2024joint,
  title={Joint Auction in the Online Advertising Market},
  author={Zhang, Zhen and Li, Weian and Lei, Yahui and Wang, Bingzhe and Zhang, Zhicheng and Qi, Qi and Liu, Qiang and Wang, Xingxing},
  booktitle={Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining},
  pages={4362--4373},
  year={2024}
}
@article{aggarwal2024selling,
  title={Selling joint ads: A regret minimization perspective},
  author={Aggarwal, Gagan and Badanidiyuru, Ashwinkumar and D{\"u}tting, Paul and Fusco, Federico},
  journal={arXiv preprint arXiv:2409.07819},
  year={2024}
}
@inproceedings{ma2024joint,
  title={Joint Bidding in Ad Auctions},
  author={Ma, Yuchao and Li, Weian and Zhang, Wanzhi and Lei, Yahui and Zhang, Zhicheng and Qi, Qi and Liu, Qiang and Wang, Xingxing},
  booktitle={Annual Conference on Theory and Applications of Models of Computation},
  pages={344--354},
  year={2024},
  organization={Springer}
}

Selling joint ads: A regret minimization perspective

Selling Joint Ads: A Regret Minimization Perspective

发表于 2024-09-29 更新于 2024-10-05 分类于 research

1. 研究的问题

这篇论文探讨的核心问题是设计一种收益最大化的激励相容机制，用于在线零售环境中的联合广告销售。具体来说，就是如何将一个广告位（例如）出售给两个不可排除的买家（例如，一个商家和一个品牌），这两个买家可能共同在拍卖中出价以推广一个产品，并且都从广告的展示中获益。该问题涉及到设计一个机制，该机制从两个买家那里收集出价，并决定是否分配广告位以及两个参与方应支付的金额。这个问题引出了复杂的激励相容性约束，例如，如何在两个参与方之间分配付款。

2. 研究的对象

研究对象是在线零售领域的广告销售机制，尤其是在涉及两个或多个买家共同对一个非排他性商品（如广告位）出价的场景。论文特别关注了那些在拍卖设计中产生的复杂问题，包括如何在不同的买家之间分割付款，以及如何确保拍卖机制既能最大化收益，又能满足激励相容性和个体理性的要求。

3. 使用的技术

论文采用了在线学习视角来解决寻找收益最大化激励相容机制的问题。作者提出了一种高效的学习算法，该算法基于自适应离散化机制空间的方法，因为任何非自适应离散化都无法实现次线性遗憾。在随机设置中（即代理的估值根据某些固定但未知的分布进行抽取），作者设计了一个有效的学习算法，实现了 (\tilde{O}(n^{3/4})) 的遗憾界限。而在对抗性设置中（即估值是预先任意生成的），作者利用问题的非Lipschitz性质来证明一个强有力的负面结果，即没有任何学习算法能够实现超过最佳固定机制收益的一半。

此外，论文还考虑了 (\pi)-平滑对手设置，即估值随机生成自平滑分布，但与随机情况不同，可以以非平稳方式进行。在这个设置中，作者构建了一个有效的学习算法，实现了 (\tilde{O}(n^{2/3})) 的遗憾界限，并基于对数数量级的专家进行简洁编码。最后，作者证明了在随机和平滑设置中，没有任何学习算法能够实现小于 (\Omega(\sqrt{n})) 的遗憾，从而缩小了这两种问题中最小最大遗憾率的范围。

1. Research Problem

The core issue explored in this paper is the design of a revenue-maximizing incentive-compatible mechanism for selling a non-excludable good, such as an advertisement slot, to two cooperative bidders (e.g., a merchant and a brand). This problem captures scenarios where two parties jointly bid in an auction and both benefit from the ad being displayed. The mechanism collects bids from both parties and decides on the allocation and payments. This gives rise to intricate incentive compatibility constraints, such as how to split payments between the two parties. The paper tackles the problem of finding a revenue-maximizing incentive-compatible mechanism from an online learning perspective, which poses significant technical challenges due to the large action space and the highly irregular function mapping mechanisms to revenue.

2. Research Object

The research object is the mechanism design for selling joint advertisements in the online retail sector, specifically focusing on scenarios where multiple bidders are involved in the bidding process for a single, non-excludable item. The paper is particularly concerned with the complexities that arise in auction design, including how to divide payments among different bidders and ensuring that the auction mechanism maximizes revenue while meeting the criteria for incentive compatibility and individual rationality.

3. Used Technology

The paper employs an online learning approach to address the challenge of identifying a revenue-maximizing incentive-compatible mechanism. The authors propose an efficient learning algorithm based on an adaptive discretization scheme of the mechanism space, as any non-adaptive discretization fails to achieve sublinear regret. In the stochastic setting, where agents’ valuations are drawn from a fixed but unknown distribution, the algorithm achieves a regret bound of (\tilde{O}(n^{3/4})). In the adversarial setting, where valuations are arbitrarily generated upfront, the authors exploit the non-Lipschitzness of the problem to prove a strong negative result, indicating that no learning algorithm can achieve more than half of the revenue of the best fixed mechanism in hindsight. They also consider the (\pi)-smooth adversary setting, where valuations are randomly generated from smooth distributions but can be non-stationary. In this setting, they construct an efficient learning algorithm that achieves a regret bound of (\tilde{O}(n^{2/3})) and is based on a succinct encoding of exponentially many experts. Finally, they prove that no learning algorithm can achieve less than (\Omega(\sqrt{n})) regret in both the stochastic and the smooth setting, thus narrowing the range where the minimax regret rates for these two problems lie.