论文笔记：从不平衡数据流中学习的综述: 分类、挑战、实证研究和可重复的实验框架-Toy模板网

这篇具有很好参考价值的文章主要介绍了论文笔记：从不平衡数据流中学习的综述: 分类、挑战、实证研究和可重复的实验框架。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

0 摘要

论文：A survey on learning from imbalanced data streams: taxonomy, challenges, empirical study, and reproducible experimental framework
发表：2023年发表在Machine Learning上。
源代码：https://github.com/canoalberto/imbalanced-streams

类不平衡给数据流分类带来了新的挑战。最近在文献中提出的许多算法使用各种数据驱动层面、算法层面和集成方法来解决这个问题。然而，在如何评估这些算法方面，缺乏标准化和商定的程序和基准。本文工作提出了一个标准化、详尽和全面的实验框架，以评估各种具有挑战性的不平衡数据流场景中的算法。实验研究在515个不平衡数据流上评估了24个最先进的数据流算法，在二分类和多分类场景下这些数据流结合了静态和动态类不平衡比率、实例级困难、概念漂移、真实世界和半合成数据集。这导致了一项大规模的实验研究，比较了数据流挖掘领域中最先进的分类器。我们讨论了这些场景中最先进的分类器的优点和缺点，并为最终用户提供了针对不平衡数据流选择最佳算法的一般建议。此外，我们还制定了该领域的开放挑战和未来方向。我们的实验框架是完全可复制的，并且很容易用新方法扩展。通过这种方式，我们提出了一种标准化的方法来在不平衡的数据流中进行实验，其他研究人员可以使用这种方法来对新提出的方法进行完整、可信和公平的评估。

1 引言

我们收集、整合、存储和分析大量数据的能力最近取得了进步，这给机器学习方法带来了新的挑战。传统的算法被设计为从静态数据集中发现知识。相反，当代数据源产生的信息具有数量和速度的特点。这样的场景被称为数据流(Gama, 2010; Bahri et al., 2021; Read and Žliobaitė, 2023)，传统方法在处理这种数据流有所欠缺。

与从静态数据中学习相比，最大的挑战之一在于需要适应数据不断变化的本质，其中的概念是非平稳的，可能会随着时间而变化。这种现象被称为概念漂移(Krawczyk et al.， 2017;Khamassi et al.，2018)，并导致分类器的退化，因为在以前的概念上学习的知识可能对最近的实例不再有用。从概念漂移中恢复需要显式检测器或隐式适应机制的存在。

数据流挖掘的另一个重要挑战在于需要算法显示对类不平衡的鲁棒性(Krawczyk, 2016;Fernández et al.，2018a)。尽管经过近三十年的研究，处理倾斜的类分布仍然是机器学习的一个关键领域。这在流场景中变得更具挑战性，因为不平衡与概念漂移同时发生。不仅类的定义发生了变化，而且失衡比例也变得动态，类的角色也可能发生转换。假设固定数据属性的解决方案不能在这里应用，因为流可能在不同程度的不平衡和类之间的平衡期间振荡。

此外，不平衡的流可能有其他潜在的困难，如小样本量，边界和罕见的实例，类之间的重叠，或嘈杂的标签(Santos et al.，2022)。不平衡的数据流通常通过类重采样来处理(Korycki & Krawczyk, 2020;Bernardo等，2020b;Bernardo & Della Valle, 2021a)，算法自适应机制(Loezer et al, 2020;Lu et al, 2020)，或集成方法(Zyblewski et al, 2021;Cano & Krawczyk, 2022)。这个问题的动机是大量现实世界的问题，其中数据既存现流的特征又出现噪声的情况，例如Twitter流(Shah & Dunn, 2022)、欺诈检测(Bourdonnaye & Daniel, 2022)、滥用和仇恨言论检测(Marwa等人，2021)、物联网(Sudharsan等人，2021)或智能制造(Lee, 2018)。虽然有一些关于如何处理不平衡数据流的工作，但对于完全可复制、透明和有影响力的研究来说，没有一致认可的标准、基准或良好实践。

研究的目标。为二元和多类不平衡数据流创建一个标准化、详尽和信息丰富的实验框架，并对最先进的分类器进行广泛的比较。

动机。虽然文献中有许多针对漂移和不平衡数据流的算法，但缺乏关于如何全面评估这些算法的标准化程序和基准。现有的研究通常局限于算法和数据困难的选择，通常只考虑二分类数据，并且没有提供必须考虑不平衡数据流的哪些方面并将其转化为有意义的基准问题的见解。不平衡数据流需要一个统一和全面的评估框架，可以作为研究人员根据文献中相关方法评估他们新提出的算法的模板。此外，对最先进的方法进行深入的实验比较，可以获得有价值的见解，了解在不同条件下分类器和学习机制的工作原理。因此，我们提出了一个评估框架，并进行了大规模的实证研究，以获得深入了解的性能方法下的广泛和不同的一组数据困难。

概述和贡献。本文提出了一个完整的框架，用于对不平衡数据流的分类器进行基准测试和评估。我们总结现有的工作，并根据既定的分类法专门针对倾斜和流问题进行组织。我们提炼出该领域中出现的最关键和最具洞察力的问题，并用它们设计一组基准问题，以捕捉独特的学习困难和挑战。我们将这些基准编译成一个框架，该框架嵌入了各种度量、统计测试和可视化工具。最后，我们通过比较24种最先进的算法来展示我们的框架，这使我们能够选择表现最好的算法，发现它们在哪些特定领域表现出色，并为最终用户制定建议。本文的主要贡献总结如下:

不平衡数据流的算法分类。我们根据已建立的分类法组织了目前最先进的方法，这些分类法总结了从不平衡数据流中学习的最新进展，并提供了最重要贡献的综述。
全面和可重复的评估框架。我们提出了一个完整的整体框架，用于评估二分类和多分类不平衡数据流的分类器，该框架将度量标准、统计测试和可视化工具标准化，用于透明和可重复的研究。
各种基准问题。我们制定了一组在我们的框架中使用的基准问题。我们捕获了不平衡数据流中存在的最重要和最具挑战性的问题，例如动态不平衡比率、实例级困难(边界、罕见和子概念)或类的数量。此外，我们还包括了现实世界和半合成的不平衡问题，总共产生了515个数据流基准测试。
最先进分类器之间的比较。我们基于提出的框架和515个基准问题，对24种最先进的流挖掘算法进行了广泛、全面和可重复的比较研究。
建议和公开挑战。基于详尽的实验研究结果，我们为最终用户制定了建议，以便了解性能最好的分类器的优点和缺点。此外，我们制定了从不平衡数据流中学习的公开挑战，这些挑战应该由研究人员在未来几年解决。

与大多数相关实验工作的比较。近年来，发表了几篇涉及类不平衡和数据流联合领域的大型实验研究的调查论文和著作。因此，重要的是要了解他们和这项工作之间的关键区别，以及我们的综述如何为这个主题提供以前的工作中没有涉及的新见解。Wang等人(2018)提出了几种现有技术的概述，包括漂移检测器和自适应分类器，并通过实验比较了它们的预测准确性。虽然是该领域的第一个专门研究，但它的局限性在于没有评估比较算法的计算复杂性，使用了非常小的数据集选择(7个基准)，并且只调查了不平衡数据流的有限属性(没有触及实例级特征或多类问题)。Brzeziński等人(2021)提出了一项后续研究，重点关注不平衡流的数据级属性，如实例困难(边界和罕见实例)和子概念的存在。然而，这项研究已经完成对于有限数量的算法(5个分类器)，并且只关注两类问题。

Bernardo等人(2021)提出了针对不平衡数据流的方法的实验比较。他们使用不同水平的不平衡比和三种漂移速度扩展了Brzeziński等人(2021)的基准。然而，他们的研究分析了有限数量的算法(11个分类器)和三个真实世界的数据集。Cano和Krawczyk(2022)对30种专注于集成方法的算法进行了大量比较，但其中21种是通用集成，而不是不平衡的特定分类器。

这四个工作只解决二分类不平衡数据流。本文扩展了以往所有研究的基准评估，提出了新的基准场景，扩展了真实数据集的数量，并对两类和多类不平衡数据流进行了评估。我们还将比较扩展到24个分类器，其中19个是专门为不平衡数据流设计的。表1总结了这些作品在实验评价上的主要差异。这使我们得出结论，虽然这些工作是重要的第一步，但需要对从不平衡数据流中学习进行统一，全面和整体的研究，这些研究可以用作研究人员评估其新提出的算法的模板。
论文笔记：从不平衡数据流中学习的综述: 分类、挑战、实证研究和可重复的实验框架,非平衡数据,论文阅读,学习,分类
本文组织如下。第2节提供了数据流的背景知识。第3节讨论了不平衡数据的主要挑战。第4节介绍了不平衡流的具体困难。第5节描述了处理不平衡流的集成方法。第6节介绍了实验设置和方法。第7节给出并分析了我们的研究结果。第8节总结了经验教训。第9节为最终用户选择不平衡数据流的最佳算法提出了建议。第10节讨论了开放的挑战和未来的方向。最后，第11节给出了结论。

2 数据流

在本节中，我们将对数据流特征、学习方法和概念漂移特性的初步介绍。

2.1 数据流特征

数据流的主要特征可以概括如下(Gama, 2010;Krempl et al .， 2014;Bahri et al, 2021):

体积。流是潜在的无限数据集合，不断地淹没系统，因此它们不可能被存储，必须增量处理。体积也对计算资源施加了限制，这些资源比实际数据所需的大小要小得多。
速度。流数据源处于不断的运动中。新数据不断地产生，并且经常以快速爆发的方式产生，从而导致高速数据流。这些迫使学习系统实时工作，必须进行分析，并将其纳入学习系统，以模拟流的当前状态。
非定常性。数据流会随着时间的推移而变化，这被称为概念漂移。这种现象可能会影响特征分布、类边界，但也会导致类比例的变化，或新类的出现(或旧类的消失)。
真实性。来自流的数据可能是不确定的，并受到各种问题的影响，例如噪声、对抗性模式的注入或缺失值。由于成本和时间要求，访问完全标记的流通常是不可能的，这导致需要从弱标记的实例中学习。

可以将流 $S$ 定义为序列 $<s_1, s_2, s_3, \dots, s_\infty>$ 。我们考虑一个有监督的场景 $s_i = (X, y)$ ，其中 $[x_1, x_2, \dots, x_f]$ ，其中 $f$ 为特征空间的维数， $y$ 为目标变量，目标变量在到达时可能可用，也可能不可用。流中的每个实例都是独立的，并且是从平稳的概率分布中随机抽取的。图1说明了从数据流中学习的工作流程和解决相关挑战的方法(Gama, 2012;Nguyen et al, 2015;Ditzler et al, 2015;ware et al，2019)。
论文笔记：从不平衡数据流中学习的综述: 分类、挑战、实证研究和可重复的实验框架,非平衡数据,论文阅读,学习,分类

2.2 学习方法

由于数据流的体积和速度，算法需要能够对不断到达的信息进行增量处理。来自数据流的实例要么在线提供，要么以数据块(部分、块)的形式提供。

在线。算法将逐个处理每个单独的实例。这种方法的主要优点是响应时间短，对流中的变化适应性强。主要的缺点在于它们对流的当前状态的看法有限，因为单个实例可能不能很好地表示一个更大的概念，或者可能容易受到噪声的影响。
块。实例在称为数据块或块的窗口中处理。由于训练样本量较大，基于块的方法可以更好地估计当前概念。主要缺点是对某些设置更改的响应延迟，因为分类器的构造、评估或更新是在新块的所有实例可用时完成的。此外，在快速更改的情况下，块可能由来自多个概念的实例组成，这进一步损害了适应能力。
混合。混合方法可以结合前面的方法来解决它们的缺点。最流行的方法之一是使用在线学习，同时维护数据块以提取关于流的统计数据和有用的知识，以便进行额外的周期性分类器更新。

2.3 概念漂移

数据流受到一种称为概念漂移的现象的影响(Krawczyk等人，2017;Lu et al, 2018)。每个实例在时间 $t$ 到达，由概率分布 $Φ^t (X, y)$ 生成，其中 $X$ 对应于特征向量， $y$ 对应于类标签。如果流中所有实例的概率分布相同，则数据是平稳的，即起源于相同的概念。另一方面，如果 $Φ^t (X, y)$ 和 $Φ^{t+C}(X, y)$ 生成了两个分别到达时间 $t$ 和 $t + C$ 的独立实例。如果 $Φ^t≠Φ^{t+C}$ ，则发生了概念漂移。在分析和理解概念漂移时，需要考虑以下因素:

决策边界的影响。这里我们区分:(i)虚拟的;(ii)实际漂移类型。虚拟漂移可以定义为无条件概率分布 $P (x)$ 的变化，这意味着它不影响学到的决策边界。这种漂移虽然不会对学习模型产生恶化的影响，但必须加以监测，因为它可能引发假警报，迫使人们进行不必要但代价高昂的适应。真正的概念漂移会影响决策边界，使其对当前概念毫无价值。检测它并适应新的分布对于保持预测性能至关重要。
变化的速度。在这里，我们可以区分三种类型的概念漂移(Webb et al, 2016):(i)增量;(ii)循序渐进;(iii)突发。增量漂移在新旧概念之间产生一系列的中间状态。这需要在新概念完全形成和相关时检测稳定时刻。在新旧实例之间逐渐漂移概念，随着时间的推移，新概念变得越来越频繁。突然的漂移会在新旧概念之间瞬间切换，导致底层学习算法的瞬间退化。
复发。流中的更改可以是唯一的，也可以是重复的。在后一种情况下，以前看到的概念可能会随着时间的推移而重新出现，使我们能够循环利用以前学过的知识。这就要求有一个模型存储库，可以用来更快地适应以前看到的变化。使用更宽松的假设，可以将递归扩展到与过去所见过的概念相似的外观。在这里，过去的知识可以作为漂移恢复的初始点。

有两种策略可以解决概念漂移: 显式和隐式(Lu等人，2018;Han等人，2022):

显式。在这里，漂移适应由称为漂移检测器的外部工具管理(Barros & Santos, 2018)。它们用于连续监控流属性(例如统计)或分类器性能(例如错误率)。漂移探测器在有即将发生漂移的迹象时发出警告信号，在概念漂移已经发生时发出警报信号。当检测到漂移时，分类器被替换为根据最近实例训练的新分类器。漂移检测器的缺陷是需要标记实例(半监督和无监督检测器也存在，但不太准确)和假警报来取代合格的分类器。
隐式。在这里，漂移适应是通过嵌入在分类器中的学习机制来管理的，假设它可以自我调整以适应来自最新概念的新实例，并逐渐忘记过时的信息(Ditzler等人，2015;da Costa等人，2018)。这需要建立适当的学习和遗忘率，使用自适应滑动窗口，或连续的超参数调整。

2.4 标签的使用

在数据流设置中获得类别标签涉及到大量的时间和成本要求。由于实例不断地大量到达，领域专家可能无法标记数据的重要部分，或者可能无法足够快地提供标签。对于可以免费获得标签的应用程序(例如天气预报)，必须考虑实例和标签到达之间的显著延迟。数据流可以分为三组关于类别标签的可用性:

完全标记。对于流中的每个实例 $x$ ，标签 $y$ 是已知的，可以用于训练。此场景假设不需要显式标签查询，并且是评估流学习算法的最常见场景。然而，对于许多实际应用程序来说，完全标记流的假设可能是不可行的。
部分标记。流中只有一小部分实例在到达时被标记。标记和未标记实例之间的比率可以随时间变化。这种情况需要主动学习来选择最有价值的实例进行标记(Žliobaitė等人，2013)，或者需要半监督机制来将知识从标记的实例扩展到未标记的实例(Bhowmick & Narvekar, 2022;Gomes et al, 2022)。
无标记。每一个实例到达时都没有标签，人们不能在要求时获得它，或者它将大大延迟到达。这迫使近似机制可以生成伪标签，寻找数据中的演变结构，或者使用延迟标签来近似未来的概念。

在这项工作中，只使用了完全标记的流，但评估的一些算法具有处理部分标记或未标记流的机制。

3 非平衡数据

在本节中，我们将简要讨论从不平衡数据中学习时面临的主要挑战。该领域近三十年的发展使我们能够更深入地了解在倾斜分布下是什么抑制了分类器训练过程的性能(Fernández等人，2018a)。

不平衡比率。不平衡数据集最明显和研究最充分的特性是它们的不平衡比率，即多数类和少数类之间的不平衡。通常认为，不平衡比率越高，分类器的难度越大。事实证明，大多数分类器训练过程是由0-1损失函数驱动的，这些损失函数假设每个实例的重要性是一致的。因此，多数类越占主导地位，分类器就越偏向于它。然而，最近的许多研究指出，比例失衡并不是学习困难的唯一来源(He & Ma, 2013)。只要类在训练集中被很好地分离和充分地表示，即使非常高的不平衡率也不会显著损害分类器。因此，我们必须研究实例级属性，以找到分类器偏差的其他来源。
样本量小。这种不平衡的比例通常伴随着这样一个事实，即少数类很少出现，收集足够数量的实例可能是昂贵的、耗时的，或者根本不可能的。这导致了小样本量的问题，其中少数类没有足够大的训练集来允许分类器正确捕获其特征(Wasikowski & Chen, 2010)。再加上失衡率高，会严重影响训练过程，导致泛化能力差和分类偏差。此外，小样本量不能保证训练集代表实际分布——这个问题被称为数据移位(Rabanser et al, 2019)。
类重叠。不平衡学习的另一个挑战来自类的拓扑结构，因为通常少数类和多数类都有很大的重叠。类重叠给标准机器学习问题带来了困难(Galar等人，2014)，而偏态分布的存在使其更具挑战性(Vuttipittayamongkol等人，2021)。重叠区域可以看作是分类器的不确定区域。在这种情况下，多数类将主导训练过程，导致决策边界忽略重叠区域的少数类。当处理多个相互重叠的类时，这个问题变得更加困难。
实例级的困难。类重叠问题指出了分析少数类实例的性质及其个体困难的重要性。少数类通常形成小的分离，产生子概念，进一步减少特定区域的少数类样本量(García et al .， 2015)。当看到对于每个实例的单个属性，可以分析它的邻域，以确定它对分类器的挑战性。一种流行的分类法根据其最近邻居的类别标签的同质程度将少数实例分为安全、边缘、罕见和异常值(Napierala & Stefanowski, 2016)。这些信息可以用来获得更有效的重采样方法或指导分类器训练过程。

4 非平衡数据流

类不平衡是当代机器学习中最重要的问题之一(Fernández等人，2018a;Wang et al, 2019)。它处理了每个类别中实例数量的不均衡，其中一些类别的代表性明显不足。由于大多数分类器是由0-1损失驱动的，它们倾向于更容易建模大多数类。代表性不足的少数类别通常是更重要的类别，因此需要改变数据集或学习过程，以创建不偏袒任何类的平衡决策边界。。

类不平衡是数据流挖掘领域的一个常见问题(Wu et al .， 2014;Aminian et al.， 2019)。这里的流可以有一个固定的不平衡比例，也可以随着时间的推移而变化(Komorniczak et al.， 2021)。此外，类失衡与概念漂移相结合，带来了新颖而独特的挑战(Brzeziński & Stefanowski, 2017;Sun et al, 2021)。类角色可能会转换(多数变成少数，反之亦然)，几个类可能会发生变化(新类出现或旧类消失)，或者实例级困难可能会出现(不断发展的类重叠或集群/子概念)(Krawczyk, 2016)。失衡比的变化可以是独立的，也可以与概念漂移有关，其中类定义( $P (y ∣ x)$ )将随着时间的推移而变化(Wang & Minku, 2020)。因此，监视每个类的属性变化是不够的，因为还需要跟踪每个类到达新实例的频率。

在大多数现实生活场景中，流不是预先定义为平衡或不平衡的，它们可能只是暂时变得不平衡(Wang et al, 2018)。用户的兴趣随着时间的推移(新话题出现，旧话题失去相关性)(Wang等人，2014)，社交媒体分析(Liu等人，2020)或医疗数据流(al - shammari等人，2019)都是此类案例的例子。因此，无论底层类分布如何，稳健的数据流挖掘算法都应该显示出高的预测性能(Fernández等人，2018a)。大多数致力于不平衡数据流的算法在平衡问题上的表现不如规范对应的算法(Cano & Krawczyk, 2020)。另一方面，这些典型算法对高不平衡比的鲁棒性较低。目前很少有算法能够以令人满意的性能处理这两种情况(Cano & Krawczyk, 2020, 2022)。

处理不平衡数据有两种主要方法:

数据级方法。这些方法侧重于改变底层数据集以使其平衡(例如，通过过采样或欠采样)，因此是分类不可知的方法。他们专注于重新采样或学习更稳健的表示。
算法级方法。这些方法的重点是修改训练方法，使分类器对偏态分布具有鲁棒性。它们专注于特定的学习模型，通常更专业，但不如数据级的方法灵活，算法级别的修改侧重于识别受类不平衡、代价敏感学习或单类分类影响的机制。

图2给出了一个分类(He & Garcia, 2009;Branco et al.， 2016;2016年,杰哈卡胡奇;Fernández等人，2018a)解决类失衡问题的方法。具体细节将在以下小节中讨论。

论文笔记：从不平衡数据流中学习的综述: 分类、挑战、实证研究和可重复的实验框架,非平衡数据,论文阅读,学习,分类

4.1 数据级方法

虽然重新采样技术对于静态不平衡问题非常流行(Fernández等人，2018a;Aminian et al, 2021)，它们不能直接用于流场景。概念漂移可能会使重新采样的数据过时，甚至损害流的当前状态(例如，当类转换角色时，重新采样开始进一步授权新的大多数)。这需要专门的策略来跟踪在给定时刻应该重新采样哪些类，以及能够通过忘记过时的人工实例来处理漂移的机制(Fernández等人，2018a)。

重采样算法可以被分类为盲目的或知情的(至少在某种程度上利用关于少数类属性的信息)。由于计算成本低，盲方法可以有效地与集成相结合，但它们单独表现不佳。因此，大多数数据流的重采样方法都是基于非常流行的SMOTE(合成少数过采样技术)算法(Fernández等人，2018b)。这些版本专注于通过采用自适应窗口(Korycki & Krawczyk, 2020)或数据草图(Bernardo & Della Valle, 2021a)来跟踪流中的变化;贝尔纳多和德拉山谷，2021b)。这使它们能够为当前概念生成相关的人工实例，并对流中的突然变化显示出良好的反应性。值得注意的是，(Korycki & Krawczyk, 2020)中提出的SMOTE的流媒体版本可以处理任意数量的类，以及在对类标签的极其有限的访问下。增量过采样数据流(IOSDS) (Anupama & Jena, 2019)专注于复制未被识别为噪声或重叠的实例。数据块的聚类可以用来识别最相关的实例来重新采样(Czarnowski, 2021)。通过基于选择的重采样(SRE) (Ren等人，2019)进行欠采样，迭代地从多数类中移除安全实例，而不会引入对少数类的反向偏差。一些作品展示了将过度采样和欠采样结合在一起以获得更多样化的少数群体代表的有用性(Bobowska等人，2019)。在处理多类不平衡数据流时，可以使用所有类的信息进行重新采样(Korycki & Krawczyk, 2020;Sadeghi & Viktor, 2021)或通过应用二值化方案和成对重采样(Mohammed et al.， 2020a)。主动学习技术，如动态预算(Aguiar & Cano, 2023)和赛车算法(Nguyen等人，2018)也与重采样技术相结合，以克服类不平衡(Mohammed等人，2020b)。数据级方法的缺点在于它们的高内存使用(当过采样时)，或者仍然相关的旧概念的不充分表示的可能性(当欠采样时)。

Korycki和Krawczyk (2021b)的一项研究讨论了重采样的另一种数据级方法。他们建议创建动态和低维的嵌入，使用关于类不平衡比例和可分离性的信息来找到高度判别的投影。定义良好的低维嵌入可以提供更好的类可分离性，从而使重新采样过时，特别是在处理高维和困难的不平衡数据流时。

4.2 算法级方法

在训练修改中，最流行的一种是将Hoeffding决策树与Hellinger分裂标准相结合，使偏差不敏感(Lyon et al .， 2014)。Ksieniewicz(2021)提出了一种动态修改基分类器预测的方法，旨在根据每个类的频率修改先验概率。提出了一种新的损失函数，使神经网络能够在在线环境中处理不平衡的流(Ghazikhani等人，2014)。在线主动学习、连体网络和多队列内存的组合由(Malialis et al, 2022)引入。流行的最近邻分类器的各种修改已经适应通过使用专用内存形成或倾斜不敏感的距离度量来处理不平衡的数据流(Vaquet & Hammer, 2020;Roseberry等人，2019;Abolfazli & noutsi, 2020)。遗传规划已经成功地用于从流中诱导鲁棒分类器(Jedrzejowicz & Jedrzejowicz, 2020)，以及提高倾斜不敏感规则的可解释性和从概念漂移中恢复的速度(Cano & Krawczyk, 2019)。

代价敏感方法已应用于流决策树中。Krawczyk和Skryjomski(2017)提出用感知器替换叶子，感知器使用基于类别的输出的成本敏感阈值调整。它们的代价矩阵以在线方式适应不断变化的不平衡比率，同时使用困难实例的多重展示来提高适应性。或者，高斯成本敏感决策树在训练过程中将代价和准确性结合到一个混合标准中(Guo et al .， 2013)。另一种方法使用在线多代价敏感学习(OMCSL) (Yan等人，2017)，其中所有类的代价矩阵根据滑动窗口进行增量调整。最近的框架提出了两阶段成本敏感学习，其中代价矩阵用于在线特征选择和分类(Sun et al.， 2020)。最后，代价敏感方法通过加权矩阵和错误分类成本与极限学习机算法相结合(Li-wen et al .， 1994)。

单类分类是类不平衡的一个有趣解决方案，其中使用这些特定于类的模型来描述少数类或所有类(实现多类问题的单类分解)(Krawczyk等人，2018)。单类分类器可用于数据流挖掘场景，并对概念漂移显示出良好的反应性(Krawczyk & Wozniak, 2015)。人们可以使用自适应在线单类支持向量机来跟踪少数类及其随时间的变化(Klikowski & Woźniak, 2020)。可以将单类分类与集成、过采样和实例选择结合起来(Czarnowski, 2022)。单类分类器可以与主动学习相结合，从流中选择信息最多的实例用于类建模(Gao, 2015)。异常检测与单类分类器的假设相似，也可用于识别流中的少数和多数实例(Liang et al .， 2021)。

4.3 相似域

在谈到从不平衡数据流中学习时，有必要提到当代机器学习中类似的领域，即持续学习和长尾识别。

与持续学习相似。值得一提的是，数据流挖掘通常可以被视为无任务的持续学习(Krawczyk, 2021)。虽然不平衡问题尚未在这种设置中得到广泛讨论，但有一些作品注意到处理倾斜的类分布对于持续深度学习的重要性(Chrysakis & Moens, 2020;Kim et al, 2020;Arya & Hanumat Sastry, 2022;Priya & Uthra, 2021)。

与长尾识别相似。多类失衡的极端情况被称为长尾识别(Yang et al .， 2022)。它处理的情况是，我们有数百或数千个类，不平衡比例逐渐增加，最小的类与大多数类相比极度不平衡(因此，基于类的实例分布是长尾的)。这个问题主要在深度学习的背景下进行讨论，其中使用了各种分解策略(Zhu等人，2022)，损失函数(Zhao等人，2022)或代价敏感解决方案(Peng等人，2022)。目前，很少有作品讨论从长尾分布中持续学习的综合挑战(Kim et al, 2020)。

5 集成方法

将多个分类器组合成一个集成是现代机器学习中最强大的方法之一，可以提高预测性能、泛化能力和鲁棒性。集成已被证明对数据流非常有效，因为它们提供了管理概念漂移和类不平衡的独特方法(Krawczyk等人，2017)。前者可以通过添加新的分类器或更新现有的分类器来实现，而后者则通过将不同偏转敏感方法的分类器结合起来实现(Brzeziński & Stefanowski, 2018;Grzyb et al.， 2021;Du等人，2021)。

数据流的集成可以通过以下设计选择进行分类:

分类器池生成。生成用于形成集成的分类器池的主要方法有两种: 异构和同质(Bian & Wang, 2007)。异构解决方案假设我们通过使用不同的分类器模型来确保池的多样性，旨在利用它们在形成决策边界时的各自优势。同质解决方案假设我们选择了一种特定类型的分类器(例如，流行的选择是决策树)，然后通过修改训练集来确保它们之间的多样性。这通常通过两种流行的解决方案之一来实现: bagging 和 boosting。Bagging(自举聚合)并行训练多个独立的基础学习器，并使用聚合函数(例如，通过简单平均或简单多数投票)组合它们的预测。boosting以顺序的方式训练基础学习者。序列中的每个模型都被拟合，使数据集中的观测值更重要，这些观测值被以前的模型处理得很差。使用确定性策略(例如加权多数投票)组合预测。值得注意的是，虽然大多数方法都是基于异构池或同质弱学习器，但也存在替代方法，例如生成混合池(使用多种类型的模型，但也为每种模型生成多个学习器)(Luong等人，2020)和使用投影(Korycki & Krawczyk, 2021b)。
特征空间修改。这定义了基分类器使用的特征空间输入。它们既可以在完整的特征空间上训练(这里必须以另一种方式确保它们的多样性)，也可以在特征子空间上训练，或者在全新的特征嵌入上训练(例如创建人工特征空间)。
集成阵容。这定义了在从流持续学习期间如何管理集成。投票程序可用于动态调整基础学习器的重要性。集合可以是固定的，这意味着每个基础学习器会不断更新，但永远不会被移除。或者，可以使用动态设置，在这种设置中，最差的分类器被修剪掉，并用在最近实例上训练的新分类器取代。最后，所有这些提到的技术都可以组合起来创建混合架构，能够更好地响应概念漂移。

对于不平衡的数据流，集成通常与前一节提到的技术相结合。图3给出了一个分类(Krawczyk等人，2017;Gomes等人，2017a)基于如何为数据流构建集成，以及如何将其与先前讨论的处理漂移和不平衡流的方法联系起来。

论文笔记：从不平衡数据流中学习的综述: 分类、挑战、实证研究和可重复的实验框架,非平衡数据,论文阅读,学习,分类
最流行的方法是将重采样技术与在线Bagging相结合(Wang et al.， 2015,2016;Wang & Pineau, 2016)。类似的策略可以应用于自适应随机森林(Gomes等人，2017b)，在线增强(Klikowski & Woźniak, 2019;Gomes等人，2019)、动态加权多数(Lu等人，2017)、动态特征选择(Wu等人，2014)、带重采样的自适应随机森林(Ferreira等人，2019)、Kappa更新集成(Cano & Krawczyk, 2020)、鲁棒在线自调整集成(Cano & Krawczyk, 2022)、加权Bagging的确定性采样分类器(Klikowski & Wozniak, 2022)、动态集成选择(Jiao等人，2022;Han等人，2023)或任何可以增量更新其基础学习器的集成(Ancy & Paulraj, 2020;Li等人，2020)。

有趣的是，预处理方法增强了基分类器之间的多样性(Zyblewski等人，2019)。或者，代价敏感型解决方案可以与自适应随机森林(Loezer et al, 2020)等集成系统一起使用。

通过使用专用组合方案或基于块的自适应学习，可以进一步提高集成对不平衡数据流的有效性(Lu et al .， 2020)。为每个基分类器分配的权重可以不断更新，以反映它们当前对少数类的能力(Ren et al .， 2018)。可以使用强化学习机制来增加在少数类上表现更好的基本分类器的权重(Zhang等人，2019)。可以使用一种混合方法，根据少数派样本滑动窗口的预测性能，将少数派实例的重采样与动态加权基分类器相结合(Yan et al .， 2022)。动态选择分类器及其相关预处理技术可以成为处理概念漂移的非常有效的工具，因为它提供了基分类器之间多样性的利用(Zyblewski等人，2021;Zyblewski & Woźniak, 2021)。或者，分类器选择平衡传入流的子集。代价敏感神经网络可以使用不同的随机权重初始化，然后使用新实例逐步改进(Ghazikhani等人，2013)。OSELM (Li-wen et al .， 1994)分类器可以使用不同的初始化组合来生成更鲁棒的复合分类器(Wang et al .， 2021)。

最后，集成在类标签访问受限的不平衡数据流中找到了它们的应用。CALMID是一个鲁棒框架，通过动态地用最相关实例的权重诱导新的基本分类器来处理有限的标签访问、概念漂移和类不平衡(Liu et al, 2021)。另一种方法使用强化学习(Zhang et al.， 2022)在标签约束下选择用于更新集成的实例。在多类不平衡设置中，自我训练半监督(Vafaie et al.， 2020)方法被应用于由一小部分标记实例驱动的自标记。它可以通过一种弃权机制来实现，该机制暂时删除不确定分类器，并动态调整弃权标准以支持少数类(Korycki et al.， 2019)。

虽然绝大多数提到的集成都使用Hoeffding决策树(或其变体)作为基本分类器，但也有一些专用于神经网络的倾斜不敏感集成。ESOS-ELM (Mirza等人，2015)维护随机神经网络，这些神经网络是在传入流的平衡子集上训练的。成本敏感神经网络可以使用随机权重初始化，然后使用新实例逐步改进(Ghazikhani等人，2013)。OSELM (Li-wen et al .， 1994)分类器可以使用不同的初始化组合来生成更鲁棒的复合分类器(Wang et al .， 2021)。

6 实验设置

实验研究旨在评估数据流挖掘算法在不同不平衡场景和困难下的性能。我们的目标是更好地理解数据困难以及它们如何影响分类器。我们解决了以下研究问题(RQ):

RQ1: 不同级别的类不平衡比率如何影响算法?
RQ2: 静态和动态不平衡比率如何影响分类器?
RQ3: 实例级困难如何影响分类器?
RQ4: 算法如何适应同时发生的概念漂移和不平衡比率变化?
RQ5: 不平衡的生成器和现实世界的流在性能上有区别吗?
RQ6: 在准确性和、时间和空间复杂性之间是否存在权衡?
RQ7: 吸取了哪些教训?我应该在我的数据集中使用哪种算法?

为了回答这些问题，我们在先前研究和新研究中提出的实验的基础上制定了一套基准问题，以评估两类和多类不平衡数据流中的额外数据困难。该研究领域的主要问题之一是缺乏关于如何全面评估这些算法的标准化和商定的程序和基准。因此，我们评估了一组全面的基准问题，其中包括不平衡数据流中数据困难的详尽列表。第7节的实验研究分为以下实验，而第8节讨论了经验教训和建议。

6.1 算法

实验包括24个最先进的数据流算法，包括性能最好的通用集成和专门为不平衡流设计的算法。表2给出了算法及其根据已建立的分类法的特征。集成模型的具体属性如表3所示。所有算法都在MOA中实现(biet et al .， 2010b)。算法和实验的源代码在GitHub上是公开的，以促进本研究的透明度和可重复性所有的结果、互动图和表格都可以在网站上找到算法在一个拥有2300个AMD EPYC2内核、12tb RAM和Centos 7的集群上运行。没有对任何算法进行单独的超参数优化。所有算法都使用其作者在各自实现中推荐的参数设置。使用Hoeffding树作为基础学习器，使用10个基本分类器的相同参数设置对所有集成进行评估。我们承认，算法往往依赖于可能对所获得的结果产生重大影响的参数。有些方法使用随机生成器，这需要初始随机种子。不同的种子会产生不同的结果，由于中心限制定理，在基准数量较少的情况下，应该运行多个种子。其他方法有影响分类器学习的参数(例如Hoeffding树的分割置信度)，在拟合特定数据集时应该更仔细地选择。由于大量的基准测试、实验和数据大小，本文报告的结果是5次运行(5个种子)的中位数。在GitHub存储库中可以获得完整的结果，以便将来进行比较，以及有关特定参数配置的详细信息。
论文笔记：从不平衡数据流中学习的综述: 分类、挑战、实证研究和可重复的实验框架,非平衡数据,论文阅读,学习,分类

6.2 生成器

为了在特定和受控场景下评估分类器，我们准备了不同不平衡和漂移设置下的数据流生成器。使用MOA中的9个生成器(Bifet et al .， 2010b)和Brzeziński et al .(2021)提出的1个生成器。表4给出了这些生成器，以及它们的属性、类的数量，以及它们是否可以生成内部概念漂移。所有生成器都在200,000个实例的流上进行评估。对于可以使用可配置属性数量的生成器，使用表上的默认值。根据实验情况调整类别数量(二分类实验2个，多分类实验5个)。
论文笔记：从不平衡数据流中学习的综述: 分类、挑战、实证研究和可重复的实验框架,非平衡数据,论文阅读,学习,分类

6.3 性能评估

算法使用test-then-train模型进行评估，其中每个实例首先用于测试，然后以在线方式(逐个实例)更新分类器。我们测量了7个性能指标(Accuracy、Kappa、G-Mean、AUC、PMAUC、WMAUC和EWMAUC)。完整的结果可在网站https://people.vcu.edu/ ~acano/失衡流。然而，由于本文篇幅的限制，我们只展示了Kappa、G-Mean和曲线下面积(AUC)的结果。它们是在500个实例的滑动窗口上计算的。我们也承认，对于不平衡数据的性能指标的最佳选择存在不同的思想流派。我们的论点是，为了对不平衡数据集上的分类器性能进行全面评估，不应该只使用一个指标，无论是哪个指标，因为所有指标都有这样或那样的偏差，并专注于评估不同的方面。因此，在我们的研究中，我们报告了我们观察到它们表现出互补行为的成对指标。

Kappa通常用于评估不平衡设置下的分类器(Japkowicz, 2013;Brzeziński et al.， 2018, 2019)。它通过计算成功的预测和数据类的统计分布之间的一致性来评估分类器的性能，纠正仅仅由于统计机会而出现的一致性。Kappa值的取值范围从−100(完全不同意)到0(默认概率分类)到100(完全同意)，如Eq. 1所示：
$\text { Kappa }=\frac{n \sum_{i=1}^{c} x_{i i}-\sum_{i=1}^{c} x_{i .} x_{. i}}{n^{2}-\sum_{i=1}^{c} x_{i .} x_{. i}} \cdot 100$

其中， $x_{ii}$ 为混淆矩阵主对角线上的样本数， $n$ 为样本数， $c$ 为类别数， $x_{.i}$ , $x_{i.}$ 分别为列总数和行总数。Kappa惩罚同质预测，这对于在不平衡的情况下检测非常重要，但在惩罚困难数据的错误分类时可能过于激烈。此外，Kappa在检测多类不平衡数据中类分布的变化方面提供了更好的见解。然而，一些作者建议避免使用Kappa，因为Kappa的值不仅取决于所讨论模型的性能，还取决于数据中的类不平衡水平，这可能会使分析变得困难(Luque et al, 2019)。

为了解决分类器在多数类和少数类上的性能之间的平衡，许多研究人员考虑了零偏差指标，如灵敏度和特异性(Brzeziński & Stefanowski, 2018)。这些指标基于混淆矩阵:真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)。灵敏度，也称为召回率，是在Eq. 2中定义的少数类别中正确分类实例的比率(真阳性率)。特异性是在式3中定义的从多数类别中正确分类的实例的比率(真阴性率)。几何平均(G-Mean)是公式4中定义的两个度量的乘积。这个度量试图最大化每个类的准确性，同时保持这些准确性的平衡。G-Mean是类失衡的推荐零偏差度量(Luque et al, 2019)。对于多类数据，几何均值是类敏感积的平方根。然而，这引入了一个问题，即一旦一个类的召回率为0，整个几何平均值的乘积就变成了0。因此，在类数较多的多类实验中使用要复杂得多，因此首选AUC。
$\begin{array}{c} \text { Sensitivity }=\text { Recall }=\frac{T P}{T P+F N} \\ \text { Specificity }=\frac{T N}{T N+F P} \\ \text { G-Mean }=\sqrt{\text { Sensitivity } \times \text { Specificity }} \end{array}$
曲线下面积(Area Under The Curve, AUC)不受类别分布变化的影响，为评分分类器提供了统计解释。然而，为了衡量分类器的排序能力，AUC需要对数据进行排序并遍历每个示例。我们采用Brzeziński和Stefanowski(2017)提出的先验AUC公式，该公式使用带滑动窗口的排序树结构。(Wang & Minku, 2020)对多类问题的AUC公式进行了扩展，将preential multi-class (pauc)定义为Eq. 5。
$PMAUC=\frac{1}{C(C-1)} \cdot \sum_{i \neq j} A(i \mid j)$
式中， $A (i ∣ j)$ 为将类 $i$ 为正类、 $j$ 为负类时的成对AUC, $C$ 为类数。PMAUC计算的扩展包括加权多类AUC (WMAUC)和等加权多类AUC (EWMAUC) (Wang & Minku, 2020)。

AUC和G-Mean对等级失衡的程度都是盲目的，而Kappa考虑了等级分布，但使其更加难以理解。因此，在极端不平衡比率的情况下，Kappa度量可能与G-Mean和AUC非常不同，这意味着分类器可能具有很高的AUC值，但Kappa值非常低。这对于理解高不平衡比率下分类器的行为以及不同的指标如何显示分类性能的互补方面非常有用。因此，使用其他两个度量来评估算法以抵消高估是很重要的。因此，在我们的实验中，我们评估了G-Mean和Kappa的分类器用于二类场景，PMAUC和Kappa用于多类场景。使用500个示例的滑动窗口预先计算指标(Gama等人，2013)。所有指标(精度、Kappa、G-Mean、AUC、PMAUC、WMAUC和EWMAUC)的完整结果可在网站https://people.vcu.edu/~acano/imbalanced-streams上获得，以便与未来的工作进行分析和比较。

7 结果

本节介绍了为回答研究问题而提出的一组基准的实验结果。7.1节展示了二进制类不平衡流的实验。第7.2节展示了多类不平衡流的实验。最后，第7.3节显示了总体结果和所有算法的汇总比较。

由于在这项工作中进行了大量的实验，我们在手稿中选择了最具代表性的结果。这些实验被组织起来，以显示结果中的三个细节层次。首先，对前五种方法进行了更详细的比较。其次，对前十种方法进行汇总比较。第三，总结各种方法的比较。所有算法、数据集/生成器和指标的所有实验的完整结果都可以在网站上获得。所有实验的完整结果可在https://people.vcu.edu/~acano/imbalanced-streams上获得。

7.1 二分类实验

第一组实验集中在二分类问题上，有一个积极的少数类和一个消极的多数类。这些实验包括静态不平衡比、动态不平衡比、实例级难度、概念漂移与静态不平衡比、概念漂移与动态不平衡比以及现实世界二类不平衡数据集。

7.1.1 静态不平衡比

==实验的目的。==本实验旨在解决RQ1问题，并评估分类器在不同水平的静态类不平衡且没有概念漂移的情况下的鲁棒性。我们期望为处理类不平衡而设计的分类器对不同程度的不平衡表现出更好的鲁棒性，即无论不平衡比例如何，都能获得稳定的性能。为了评估这一点，我们准备了表4所示的生成器，其静态不平衡比率(由Zhu等人(2020)定义的多数类与少数类的大小之比)为{5,10,20,50,100}。这允许我们评估每个分类器在特定级别的类不平衡下的表现。图4显示了随着静态不平衡比水平的增加，所选的五种算法的性能。表5给出了每个评估不平衡比率的前10个分类器的平均G-Mean和Kappa以及算法的总体排名。图5提供了针对每个失衡比级别的所有算法的比较。椭圆的轴表示G-Mean和Kappa指标。坐标轴越大，算法在指标上的排名就越高。椭圆越圆润，度量之间越一致。最后，颜色表示两个指标的等级乘积的梯度——红色(较差)到绿色(较好)。
论文笔记：从不平衡数据流中学习的综述: 分类、挑战、实证研究和可重复的实验框架,非平衡数据,论文阅读,学习,分类

讨论

方法对班级失衡的影响。首先，我们将分析在平稳假设下，所分析的系统所使用的不同偏斜不敏感机制对其对不同水平的静态不平衡的鲁棒性的影响。看看基于重新采样的方法，我们可以观察到基于盲方法和基于信息方法的方法之间的明显区别。采用盲法的系统通常会随着不平衡比的增大而性能下降。以UOB 为例，可以看到G-mean和Kappa指标之间的差异。对于g均值，UOB 保持其预测性能，以至于对于非常高的不平衡比率，它优于其他方法。

然而，对于Kappa指标，我们可以看到UOB 的表现随着类别比例的每一次增加而显著恶化。这表明UOB 产生了一个很好的真阳性比率，但比例较大的假阳性数量。我们可以解释，由于欠采样对极端类别不平衡的限制，为了平衡当前的分布，必须积极地放弃多数实例。在静态问题中，类之间的不比例越高，丢弃相关多数示例的机会就越高。然而，在流设置中，我们以在线方式分析不平衡比率，因此UOB无法抵消由于一个接一个的传入实例欠采样而随着时间积累的对大多数类的偏见。其对应的OOB显示相反的行为，为Kappa度量返回最佳结果。此外，对于高不平衡比率，OOB开始在两个指标上显示平衡的性能。这表明，在线场景中的盲目过采样能够更好、更快地抵消随时间积累的偏见。从信息重采样方法中，我们可以观察到只有SMOTE-OB返回令人满意的性能。对于Kappa度量，它可以优于UOB ，但与UOB 相比表现不佳。所有其他使用基于smote的重采样算法的性能甚至更差。这使我们得出结论，就静态不平衡的鲁棒性而言，盲过采样在所有数据级机制中表现最佳。

在算法级解决方案中，CSARF对G-mean度量的效果最好，优于所有参考方法。然而，当使用Kappa进行评估时，它并没有保持其性能。这是这些指标之间的差异以及它们如何突出不平衡分类的不同方面的另一个引人注目的例子。替代算法级方法，如ROSE和CALMID，虽然在G-mean上表现较差，但同时在两个指标上提供了更平衡的性能。此外，它们对不平衡比的增加具有良好的鲁棒性。因此，为具有静态不平衡的数据流选择算法远非微不足道，因为必须在仅在其中一个指标上执行得很好的方法之间进行选择，或者选择一个全面的方法，虽然不超过任何单个指标，但提供更均匀的性能。最后，在没有倾斜不敏感机制的标准集成中，LB返回了最佳的预测性能，优于几种专门用于不平衡数据流的方法。这并不适用于其他方法，如SRP或ARF，它们对不平衡比率的增加没有稳健性。

集成体系结构的影响。当我们在每个场景中查看整体表现最好的方法时，我们可以看到基于Bagging或混合架构的集成的主导地位。Bagging提供了一种简单有效的方法来维持基础学习者之间基于实例的多样性，这对数据级和算法级方法都有好处，并且在各种级别的类不平衡下具有很高的鲁棒性。在Bagging方法中，只有OUOB可以被视为异常值。我们可以用上一段的观察来解释这一点——欠采样和过采样提供相反的性能(一个倾向于g均值，另一个倾向于Kappa)。因此，通过结合这两种方法，我们获得了由两种相互冲突的机制驱动的集成。基于提升的组合通常是表现最差的组合。我们可以用这样一个事实来解释这一点，即增强机制侧重于纠正链中先前分类器的错误。当处理高不平衡比率时，误差是由少数实例驱动的，导致样本容量太小，无法有效提高性能。由于少数实例通常会被错误分类，给它们分配高权重会增加误报的数量，从而导致多数类的高错误率。最后，基于提升的集成将由偏向于其中一个类的分类器组成。如果没有适当的选择或加权机制，则不可能在集成池中使用此类分类器保持对高不平衡比率的鲁棒性。文章来源地址https://www.toymoban.com/news/detail-668739.html

到了这里，关于论文笔记：从不平衡数据流中学习的综述: 分类、挑战、实证研究和可重复的实验框架的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！