使用多个数据源的模型性能扩展

摘要

现实世界的机器学习系统通常使用成本和质量不同的数据源进行训练。理解训练数据集的大小和组成如何影响模型性能对于推进我们对泛化的理解以及设计更有效的数据收集策略至关重要。我们证明了有一个简单的比例定律，可以预测即使在不同的数据集组成下模型所产生的损失。我们的工作扩展了最近对 i.i.d 设置中 log 线性泛化误差的比例定律的观察，并使用它将模型性能预测转化为一个学习问题。利用最优实验设计理论，我们推导了一个简单的泛化误差逼近，可以通过一些模型训练进行拟合。我们的方法可以在两种不同的标准监督学习任务的大量外推下实现模型性能的高度准确(r2≈.9)预测，并且在更具挑战性的机器翻译和问题回答任务上也很准确(r2≈.83)，其中许多基线的性能比随机性能更差。

1. 介绍

大规模机器学习系统的成功主要取决于训练期间使用的数据的数量和质量，如果没有足够的训练数据或数据不涵盖测试分布中包含的所有现象，我们不能指望这些系统成功。了解了这一点，机器学习系统的设计者可能会创建多个数据源，每个数据源都针对模型应该擅长的不同特性或领域。这种数据驱动设计的策略提供了强大的工具来改进和评估模型行为，但也提出了一个额外的挑战：组合这些不同的数据源的正确方法是什么？对于给定预算的最佳数据收集策略是什么？

我们的目标是通过量化数据源和模型性能之间的关系来回答这些问题。如果把我们的模型放在数据混合(q1…qk)(其中 qi 是来自数据源 i 的数据集的一部分)上训练，我们的模型会做得多好。一个预测模型性能的精确模型将允许我们确定最佳的数据收集策略，并量化成本-性能的权衡。

我们工作的起点是最近对语音、视觉和文本的观察，这些模型的经验性能非常可预测，并遵循 log 线性公式。

在这项工作中，我们将这一观察结果扩展到多数据源设置，并推测 log 线性关系（α）的斜率不随数据组成而变化，数据组成只影响截距(C)。我们在一系列参数模型和非参数模型中证明了这一点。

log 误差对数据大小的简单依赖使我们能够将模型误差估计问题缩小为学习问题。我们的方法很简单。首先，我们假设模型的误差如下，对于一个简单的参数函数形式 C(q)：

V(n,q):=exp(-αlog(n)+log(C(q))

接下来，我们将这个函数形式拟合到观察到的数据对(n，q，error)上，这是我们通过对数据集进行子采样和重新训练一个模型来获得的。

我们证明了有一个自然而简单的选择 C(q)作为一个有理函数，我们从线性回归、m 估计和非参数平滑的最优实验设计中推导出来。V(n，q)对 n 的简单和参数依赖性允许我们使用我们的结果估计来预测数据大小的大量外推下的模型性能。

2. 问题设置

我们的目标是预测一个模型的性能，作为训练样本数量 n 以及数据集组成 q 的函数，其中 qk 表示从数据源 k 中提取的训练数据的一部分。现在，我们将根据训练数据分布、模型拟合和测试损失来更正式地定义这个目标。

训练数据由一个 n 个样本的训练集 pn，q 组成，它是通过从混合 p:=∑k∈[K] qkpk 中采样而创建的,其中 pk 是每个 K 个数据源的数据生成分布，qk 是 qk≥0∑Pk∈[K]qk=1 的混合权重。使用这个数据集，我们学习了一个预测模型 θ?，对于一个训练例子(x，y)，它会导致损失 l(θ?；x，y)。拟合的模型是经验损失最小化器，我们将其定义为

该分类器的性能在具有相同条件标签分布(例如 p(y|x)=ptest(y|x))的测试分布上进行评估。我们感兴趣的是模型性能作为数据大小和组成的函数(而不是一个固定的经验分布 pn，q)，因此我们的目标是预测模型在训练和测试分布中的平均超额损失，

（a）log 超额损失（y 轴）与 log 数据集大小（x 轴）呈线性关系。通过改变 q（线色）来改变数据分布会改变截距，而不改变斜率。

（b）损失数据集 log 线性关系的间隔（C(q)）。当数据集是两个数据源(q≈0.5)的混合时，损失最低，而当只使用一个数据源时，损失迅速增加。

图 1 数据组成和大小对线性玩具数据集的 log 线性效应。

估计 L 要求我们假设(n，q)和预期的模型损失之间的关系。根据赫斯特尼斯等人的早期观察。（2017），我们期望对于任何固定的 q，L(n，q)和 log(n)之间存在 log 线性关系，这意味着一个可能的近似为

我们现在用一个简单的玩具例子来检验这个假设。

线性玩具数据：我们将从线性最小二乘回归的最简单的非平凡例子开始来研究 L(n，q)。在本例中，在 x∈R2 上有两个数据源。第一数据源在第一坐标 x0 上具有很大的可变性，但不是 x1，对于第二数据源，反之亦然。整个生成过程是

设 L(n，q)是一个线性最小二乘模型的超额平方损失，用一个混合 q 的 n 个样本训练，并在 q=为 0.5 的测试分布上进行评估。L（n、q）将是什么样子？图 1a 显示了 log 数据集大小（log(n)）和 log（L（n、q））之间的清晰的线性关系。线性关系的截距似乎随混合数据 q 的变化而变化，但斜率似乎是恒定的。

更仔细地检查图 1a，我们发现只使用任何一个数据源（蓝线）的极端情况比混合情况更差，这表明 log(L(n，q))在 q 中不太可能是线性的。直观地说，我们可以想到每个数据分布具有不同的强度(即在 x0 或 x1 中有更多的方差)，并将两者结合得到比单独更好的数据分布。当我们估计每条线的截距时，我们可以更清楚地看到这一点(图 1b)。估计的截距显示出一条 u 型曲线，随着 q→0 或 q→1 而迅速增加，一般从 0.2 到 0.8 平坦。

3. 方法和观点

我们观察到，在一个简单的线性回归的情况下，log 误差不仅遵循方程 2 中概述的关系，而且斜率 α 常数，我们改变数据组成（我们将进一步验证这个说法在更复杂的任务和模型在后续的部分）。这一观察结果表明，我们可以进一步简化 log 线性近似为

现在请注意，这种函数形式将数据大小 n 和混合比例 C(q)解耦为两项。这是我们工作的关键假设：log(V(n，q))对 n 的依赖非常简单，而更复杂的项 C(q)对 n 没有依赖。因此，我们可以将其转化为一个学习问题，其中我们根据模型在 q 和小 n 范围内的误差来学习 α 和一个参数函数 Cλ(q)，并利用 logV 对 n 的 log 线性依赖关系对大 n 进行推断。

具体地说，我们得到了一个由 k 个数据源组成的数据集，其中每个数据源构成n1…nk样本。为了预测模型在不同数据组合下的性能，我们采取以下步骤。

首先，我们使用每个源的 ?nk～Unif(0，nk)样本生成一个下采样数据集。这导致了一个数据大小为 ?n=∑k?nk 和组合为 q?k=?nk?/n 的训练集。

接下来，我们对这个下采样数据 a 拟合一个模型并且计算它的损失 R(n,q)=E[l(θ(pn,q);x,y)].对于一个三元组(n,q,R(n,q))，我们拟合假设的函数形式，

在这里，e近似于最优渐近误差 infθE[`(θ；x，y)]（即模型指定时的贝叶斯错误率）和 L(n，q)≈R(n，q)?e.这种针对渐近误差建模超额损失的方法是现有尺度定律工作的标准方法。

最后，给定拟合的 α 和 Cλ(?q)，我们可以通过外推到 ?αlog(n)+log(Cλ(q))来预测任何模型的性能。

这种预测模型性能的方法让人想起了响应面方法(Belkhir 等人，2017)，但我们还有另一个挑战，即我们对 Cλ(?q)没有一个很好的估计。根据经验，我们发现一般的函数逼近器，如多层神经络，表现不佳。

实验数据并没有指定 Cλ(q)的函数形式，除了它应该处理像图 1b 中所示的凸函数。现在，我们将从理论上研究 V(n，q)，并论证一个自然选择是有理函数

在接下来的章节中，我们将研究三种设置：普通线性回归、m 估计和非参数回归，并表明我们假设的 log 线性近似在所有三种情况下都会自然出现。

3.1 线性回归

我们首先在线性回归的情况下描述 L(n，q)，其中我们可以推导出期望损失作为训练数据的函数的封闭形式的表达式。我们的设置是 d 维，n 样本线性回归，定义为 y=xTβ+e

With i.i.d.e～ N（0,1）。我们的训练数据遵循 x～p：=∑k∈[K]qkpk 标准，其中每个数据源都有全秩二阶矩 Σk：=Ex～pk[xxT] 定义普通最小二乘估计量 β?：=(XTX)?1XTY。此估计器对任何 x?～p? 和 y?：=x?Tβ+e 的超额测试损失定义为

3.2 通用 M 估计器

我们可能会正确地问，这种近似是否继续适用于非线性模型和损失，如神经络。上述相同的分析可以推广到一类更一般的模型的渐近行为，它们是可微损失的经验损失最小值。

对于回归情况，我们依赖于 β 的封闭形式表征。对于 m-估计量，我们将在抽样分布下使用渐近正态性。现在我们有了估计量的渐近分布，我们可以通过简单地取 θ∞ 处损失的泰勒展开来量化 C(q)关于检验分布 p? 的（渐近）形式。

3.3 非参数模型

最后，我们证明了同样的关系也适用于非参数模型，如核平滑或装箱。我们的目标是估计 i.i.dN（0,1）和可微 L-lipschitzf 的一些真映射 y=f(x)+e 函数。估计的质量将用一些有界一阶两个导数的双可微损失`(y，x)来衡量。

4. 实验

我们已经看到，一个有理函数是在 3 种不同的设置下对 C(q)的有理近似。我们现在将证明这是实践中的情况，此外，C(q)可以使用一些在小数据集上训练的模型来准确估计。模型性能的结果估计对于具有一个数量级数据的模型是准确的。

基线和实现

我们的评估集中在预测模型 L(n，q)产生损失的能力上。为了做到这一点，我们将比较有理函数近似程序与几个自然基线来预测一个模型的损失。每个基线对应一个不同的关于 log 的式子（V（n、q））的假设用来近似函数（L（n、q））

数据大小:

假设 log(V(n，q))=αlog(n)+c 是一个函数形式，忽略了数据组成和对 q 的依赖。我们通过最小二乘回归求解 α。

线性的：

假设 log(V(n，q))=αlog(n)+βTq+c 的是一个函数形式。如果我们把 log(V(n，q))认为是对 q 为线性，n 为 log 线性，这是一种自然的方法。与数据化基线一样，我们使用最小二乘回归来求解参数。

消融和沙普利值：

通过将 β 设置为数据源的 log 值（该值为数据源的边际贡献）或去除数据源后获得的损失的 log 比（消融），进一步限制线性基线。我们使用这种方法，因为我们发现它主导了通常将 V(n，q)作为 Shapley 值的线性处理的假设。

MLP（小型、中型、大型）：

具有大非线性的多层全连接神经络，直接将 log（V（n，q））回归为 log(n)的函数。小模型有 1 层隐藏单元，等价于 K={数据源数+1}；中型有 K 层和 K 个隐藏单元；大型各有 5 个和 50 个隐藏单元。我们训练这三个模型，以证明一般非线性回归模型在外推上不一定成功。

我们将把我们的方法称为有理函数法，我们使用 Adagrad(Duchi 等人，2010)优化器进行拟合，该优化器有 20000 步，学习率集[0.005,0.5]。通过 log 变换，我们对权值 λ 进行了参数化，并用 Xavier 初始化初始化它。这防止了 λ=0 附近的简并，我们根据经验发现，优化过程在我们使用的交叉验证范围内是稳定的。我们将有理近似(M)中的因子数量固定为大于数据源的数量，以减少需要调整的超参数的数量。我们发现 e=0 在回归和分类数据集上工作得很好，并且我们始终使用这个值。

我们将 C(q)的 V(n，q)与 4 个项的平方进行了拟合，通过最小化在 e=为 0 的模型上包含 0-1200 个例子的 log 误差的平方损失。然后，我们使用 V(n，q)来预测在来自每个领域的 1200-3600 个例子上训练的模型的 log 误差。该外推任务的结果如表 2 所示。我们的 V(n，q)估计是非常准确的(r2=0.96)，并从低数据推断到高数据状态，没有问题。这种相关性明显高于使用数据集大小(r2=?0.65)、线性模型(r2=0.76)的两种方法，甚至更好的最佳加性模型(r2=0.87)的训练误差。

4.1 重点评价：亚马逊情绪

我们现在考虑曼苏尔等人的亚马逊情绪预测回归数据集。（2009 年），其中的目标是利用评论中的词袋功能来预测亚马逊对书籍的评分（从 0 星到 5 星）。训练数据来自三个与测试数据不同的领域：厨房、DVD 和电子产品评论。该模型是一个标准的脊正则化回归模型；我们添加了脊正则化项，以证明即使轻微违反假设，命题 3.1 仍然成立。我们估计模型损失的实验设置如下：我们均匀地随机抽样每个源的数据集大小（每个源得到 0 到 1200 个示例），并在这个数据集上训练一个模型。我们通过在图书领域的均方损失来衡量检验误差。MLP 模型的性能都低于有理函数法函数近似，甚至更大的容量模型也没有帮助，这表明我们的方法的性能不仅仅是由于一个更灵活的预测器家族。MLP（中）模型达到了最佳的拟合，而更适合训练数据的模型(MLP 大)并不能提高性能。试图通过改变隐藏单元的大小来进一步优化 MLP 模型并没有帮助，因为增加和减少每一层隐藏单元的数量都会导致性能下降。最后，本实验采用了偏离理论部分分析的最小二乘回归的岭回归模型。我们发现，增加岭惩罚以使间隙更大，结果更好，当正则化强度从 300 变化到 1000 之间时，有理函数近似的 r2 增加到 0.96。

数据大小预测器在外推设置上的 r2 为负，这似乎令人惊讶。然而，当一个预测器不能比预测测试集的平均值表现得更好时，就会发生这种情况。在外推设置中预测测试集的平均值并不是很简单的，在这种情况下，数据大小的估计通常是没有信息的因为来自厨房领域的数据对于预测书评分数并不那么有用。接下来，我们将通过考虑两个附加设置来检验预测模型性能的极限：当估计 V(n，q)只拟合 q 的一小集(q 的外推)，以及当训练和测试数据大小的比值超过 10 倍时。

表 1 在亚马逊评论情绪预测任务上的 L(n、q)估计的准确性。粗体表示在外推下表现最佳的模型，通过自举配对差异检验确定。

q 上的外推

在我们之前的实验中，我们对亚马逊情绪评论数据集的一个子集进行了下采样，以获得广泛的 qs 的模型性能度量。虽然这模拟了我们如何从试点数据集中估计 V(n，q)的方法，但我们可能还会对消融实验感兴趣，在消融实验中，我们有意限制用于拟合 V(n，q)的 q 数据集。这使得我们可以通过检验 n 和 q 中的外推值来进一步验证我们的有理函数近似。

我们使用了之前的亚马逊情绪预测任务，但通过确保用于适应 V(n，q)的训练集中都有“厨房”类别对应的 qi 来限制 q<1/3。这意味着，当大多数数据集由 dvd 和电子产品评论组成时，该模型必须学习估计来自厨房领域的示例的价值。我们发现有理函数模型的性能仅略有下降，其中 r2=为 0.92。最佳基线（线性）显示出轻微的改善(r2=0.83)，因为厨房的例子对 V(n，q)的非线性有很大的贡献，但与有理函数近似的性能不匹配。在这种情况下，MLP 方法的表现比随机方法更差，这表明使用任意函数近似器对 q 的外推基本上更具挑战性。

关于 n 的训练-测试差距

我们也可能对超出前面考虑的 4 个尺度因子的更大的外推设置感兴趣，。为了验证这一点，我们将早期亚马逊实验的训练测试分割更改为 0?360 训练示例和 360?3600 测试。这导致了数据大小的差距接近 10 倍——超过这一点，训练将缺乏信息，因为每个类别少于 100 个例子训练的模型具有极高的误差和方差。这大大降低了所有模型的性能，但总体结论仍然相似：有理函数近似具有相对较高的预测能力(r2=0.77)，与最佳基线(线性，r2=0.65)有很大的差距。再一次，我们发现基于 MLP 的方法比随机方法表现更差，并且在这些更具挑战性的情况下显著下降。对于下一节中更复杂的实验设置，我们无法通过 10× 外推下的任何一种方法获得令人满意的性能，我们认为这是一项有趣的未来工作，可以在一般设置下构建更极端的外推预测器

4.2 .广泛的评价：语义解析、翻译和问题回答

现在，我们在 3 个任务上对违反我们模型性能预测假设的 3 种方法(线性、有理函数法、MLP 和数据化)进行简单的评估但更广泛的评估。我们排除了这两种基于消融的方法，因为它们是线性模型的特殊情况，而且通常表现更差。

面向任务的对话

我们将 V(n，q)与 10 个包含少于 16000 个例子的模型上的 C(q)的 5 个项进行拟合，并在包含 16000 到 100000 个例子的 19 个模型上进行测试。表 2 中的结果显示，我们的方法是准确的(r2=0.89)，并在自举配对差异检验下与最佳基线(r2=0.90)相匹配。这两种方法都优于其他基线，包括数据大小(r2=0.64)。我们在这里看到最佳 MLP 模型（小）和有理函数近似之间有更大的差距，由于过度激进的外推，MLP 模型表现更差(r2=0.35)。结合亚马逊的实验，分析这些结果，我们发现线性假设在某些情况下（亚马逊情绪）可能会被严重违反，即使它在某些情况下（对话）可能表现良好。

表 2 由于使用深度神经络、BLEU 等不可分离的损失和弱监督，3 个真实任务的误差估计精度对性能预测提出了挑战。加粗表明最佳方法，对自配对差异有 5%的显著性水平。对于 MLP，我们简要告了 3 个最佳模型。

图 2 以 BLEU 为性能度量的多域机器翻译任务的性能预测。数据集的大小和损失（左面板）之间几乎没有相关性，而有理函数近似提供了有理的预测（右）。

机器翻译

到目前为止，我们已经评估了可分离的损失，如均方误差，或模型的精度。我们现在表明，我们预测模型性能的方法继续适用于不可分离的损失，如用于机器翻译的 BLEU。我们的任务是来自 Koehn&Knowles（2017）的标准多域机器翻译数据集。我们使用了 Hu 等人的预处理数据、模型和超参数。（2019），这是 2019 年该数据集最先进的基于领域自适应的翻译方法。该模型在 4 个数据源上进行了训练：Acquis（法律文本）、EMEA（议会程序）、IT(IT 援助)和《古兰经》（《古兰经》的译本）。

为了估计模型在不同数据组成下的性能，我们从每个数据源中抽取多达 30 万个句子，对 19 个大小小于 60 万的数据集进行估计，并对 11 个大小为 60 万到 120 万的数据集进行评估。由于 BLEU 是一种相似度度量，并且受到参考模糊性的惩罚，因此我们认为 50-BLEU 为超额误差。有理函数逼近是这些方法中唯一得到正 r2（0.83）的方法。当绘制预测和观察到的 log 损失时，预测精度的差异是明显的（图 2）特别值得注意的是，过度参数化的 MLP 模型在训练集上表现很好，但完全无法外推。相比之下，线性模型的训练集 r2 较低，这表明在这种情况下，数据组成和性能之间的关系基本上是非线性的。

多任务问题回答

该任务面临的挑战是，只有 BoolQ 训练集对测试时间任务提供了直接的监督，而其他数据源提供了薄弱的监督，这可能对下游问题有帮助，也可能没有帮助。模型性能估计被拟合在 9 个数据集上，总共有多达 26000 个例子，并在有超过 26000 个例子的 14 个数据集上进行评估。线性估计和 MLP 估计似乎不能很好地推断到测试集，而数据化估计只提供了对于真实错误地较弱的相关性。虽然不同方法之间的差距很大，但我们注意到样本量小，置信区间相对较宽，有理方法和数据化方法之间的引导对差的 5 和 95%百分位数分别为（0.04、0.80）。

总的来说，有理函数近似是一种很有前途的模型性能比例近似，即使是在具有挑战性的神经模型、非精度指标(如 BLEU)和多任务设置的场景下。虽然泛化误差的线性近似是有效的（在对话任务中看到），但其余四个任务的情况并非如此，有理函数法函数近似在这些设置中获得了实质性的收益。

5. 讨论

在这项工作中，我们提出了一种新的方法来预测模型预测的性能，这里给出训练数据组成的函数，包括测量参数为小 n 和一系列 q 下模型精度和拟合一个参数模型 V(n,q):=-αlog(n)+∑i=1,m(∑k=1,K λikqk) -1，我们的主要贡献是表明，对于一系列模型，这种非线性参数模型是一种比现有的线性近似值更自然的泛化误差近似值。对亚马逊情绪回归任务的实证结果表明，这种近似在一系列条件下是准确的，而对神经模型的实验表明，在该理论不一定成立的更现实的情况下，该方法可以继续表现得良好。我们的工作是超越模型性能的封闭形式估计或可加性假设的第一步。同样的方法是否可以扩展到更极端的外推设置或大量的数据源，这是一个悬而未决的问题，我们希望在未来的工作中探索这一点。

6. 致谢

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

使用多个数据源的模型性能扩展

相关推荐