摘要
决策树(Desision tree, DT)生长关键步骤的分裂或分叉准则通常根据纯度和误分类误差等实现,分裂生长分为轴平行和非轴平行方式。这些分裂准则一般与数据内在结构(如类别是否是多簇或单簇组成)无关。为了弥补这一缺失,本文提出了两种混合分裂准则,分别用加权和两步法将同类内的节点间距(Between⁃node margin within the same class,BNM)和同一节点内的类紧性(Within⁃class compactness and between⁃class separation in the same inner node,CSN)与纯度度量相结合。由于传统决策树以贪婪方式生长,仅能确定出当前的一个局部最优分裂点,为改善这个缺点,本文首先根据纯度确定出前k个候选分裂点,然后通过最大化BNM和最小化CSN确定最终的分裂点,不仅缓和了纯度上的局部最优性,而且引入了数据结构的全局性,因此能较大程度地改进后代节点的分裂,增强树的泛化性和可解释性。将上述两种分裂准则组合还可以进一步提升性能。在21个标准验证数据集上的比较结果表明:新准则下的决策树不仅提高了预测性能、降低了复杂性,而且相比于其他采用混合分裂准则的DTs更具竞争力。
作为一种监督学习算法,决策树本质上是通过一系列决策规则对数据进行分类的预测模型。其简单的树形结构接近于人类在面临决策问题时的一种自然的处理机
决策树的分裂准则在很大程度上可以决定树的生长方向和性质,是很活跃的研究领
在多簇数据中,一个类有多个簇中心,基于纯度的分裂准则划分多簇数据集并不理想,极有可能会将一个簇切分开,令树的分裂生长更复杂,有过拟合的风险。对于簇中心不同的两个同类簇A、B,尽管类标签相同,但在当前节点的数据分布上可能会更容易分开,因此,希望在此次分裂时能将A、B分离,即不同节点内的同类间距尽可能大。在决策树的生长过程中,不同分支的节点空间是互相独立的,所以这次划分可能会使A、B在各自节点空间中的后续划分更简单,从而降低树的复杂性。对于划分到同个节点的不同类,应使类内更加紧凑、类间尽量分离,这相当于假定划分到同个节点中的每一个类都为一个样本簇,直观上,希望节点内的不同样本簇满足簇内相似性高且簇间相似度低的特
决策树的分裂生长通常选择在当前情况下令不同类尽可能分离的分裂点,是一个贪心的局部最优策略。从优化的角度来看,贪心搜索往往不能找到全局最优解,而束搜索没有选择当前局部最优,却可能找到比其更接近全局最优的
本文分别用加权和两步法把两种度量同类内的节点间距(Between⁃node margin within the same class,BNM)和同一节点内的类紧性(Within⁃class compactness and between⁃class separation in the same inner node,CSN)与纯度度量结合,提出了两种同时考虑全局结构和纯度的混合分裂准则,具体地,它们表示在判别能力较好的几个候选分裂点中,选择不同节点内同类间距最大和同一节点内类内紧凑、类间分离的分裂点,能在一定程度上顺应数据分布划分,降低树的复杂度和预测错误率。此外,本文又组合了上述两种分裂准则,以进一步提高性能。
决策树通常根据判别能力选择最佳分裂点,而对于两个及两个以上判别能力相似或相同的候选分裂点,无法确定哪个更合
Wang
(1) |
式中表示在中按照排列得到的片段数。衡量了该属性上类排列的复杂程度。片段数越少意味着在纯度相似的候选点中,该分裂点的判别能力更强。Segment+C4.5是一种以两步法结合纯度和片段数两种度量的混合分裂准则,首先选出接近最佳纯度的个候选分裂点,然后取候选分裂点中片段数最小的分裂点作为最佳分裂点,即
(2) |
式中:|*|表示该数据集的样本数;、分别为左右子节点;表示在中按照排列得到的片段数。
Segment+C4.5不仅有效地提高了泛化性,同时缩小了树的大小。
Yan
(3) |
式中:为分裂点;为最小片段数;为加权因子;表示归一化后的最小片段数;表示该点分裂后的纯度度量。
当,最佳分裂点的选择更倾向于频率,反之,更偏向片段信息。这样构建的统一模型可以扩展到任何单变量决策树。此外,他们提出了两种归一化方法规范预期片段数,使其和分裂性能具有相同的数量级。
Yan
(4) |
除此之外,Shi
近两年,混合分裂准则的研究仍有进展。Yan
本文的方法和上述混合分裂准则的对比情况如
混合分裂准则 | 结合方式 | 混合信息1 | 混合信息2 | 混合信息2来源维度 | 混合信息2来源 |
---|---|---|---|---|---|
Segment+C4.5 | 两步法 | 信息增益率 | 最小片段数 | 1 | 类排列 |
SPES | 加权 | 信息增益率 | 最小片段数 | 1 | 类排列 |
SPCM | 两步法 | Hellinger距离 | 片段数、分裂比率 | 1 | 类排列 |
CV⁃ID3 | 乘积 | 信息增益 | 聚类有效性 | 1 | 结构 |
FR⁃ID3 | 和 | 聚类数量 | 故障率 | 1 | 频率 |
AdaDT | 加权 | 信息增益率 | Hellinger距离 | 1 | 类概率分布 |
iSAT | 选择式 | 信息增益 | SAT | 1 | 结构 |
SCAFF | 加权 | AUC(Area under curve) | 敏感特征的AUC | 公平性 | |
BNM结合纯度 | 两步法 | 基尼系数 | 不同子节点内同类间距 | m | 结构 |
CSN结合纯度 | 加权 | 基尼系数 | 同一节点内类紧性 | m | 结构 |
BNM+CSN结合纯度 | 两步法、加权 | 基尼系数 | 不同子节点内同类间距、同一节点内类紧性 | m | 结构 |
基于结构的决策树类似于采用“自顶而下”拆分策略的层次聚类,决策树的向下划分类似于将一组粗粒度聚类簇拆分为更多细粒度聚类簇的过
本文在二叉树中实现基于结构和纯度的混合分裂准则,其目标是找到当前节点中的最佳分裂点(Optimal splitting point ,OSP)。
现假设当前样本集合按分裂点进行分裂得到子节点、,其中,表示沿属性上的分裂。令、分别表示左右子节点中第类的第个样本,表示子节点中相同类的个数,、分别表示左右子节点中第类的均值中心。
需注意,在每次分裂前,需要对父节点进行归一化。本文用样本簇均值中心之间的欧几里德距离(Euclidean distance
(5) |
由于不同分裂点的不同,所以需要对同类间距求平均以避免偏心多分类的分裂点。此外,考虑到式也会偏向于特征空间内更边缘的分裂点,即:将父节点划分为一个极度小的单类子节点和一个极度大的多类子节点。因此,BNM应增加一个惩罚项,在同类间距尽可能大的同时,令两个子节点内不同类之间的最短距离尽可能小,即有
(6) |
式中:、表示不同类之间的欧几里德距离;、表示左右子节点内的类别数。在实际应用中,实现式的时间复杂度非常大,所以将两个节点中不同类之间的最短距离近似表示为,即:在该维度上,不同类和分裂阈值thr之间的最小差值和,其中:表示两个子节点间不同类的个数,表示节点内第c类的第i个样本。则式可以近似表示为
(7) |
然后将其与纯度度量加权结合
(8) |
(9) |
式中:、为子节点的纯度;为父节点的纯度;、、分别表示对应数据集的样本数;、为加权因子。最后,找到使最大的最佳分裂点(Optimal splitting point,OSP)为
(10) |
越大,子节点中同类样本属于同个簇的可能性越小,在结构上,此次划分的可靠性越强。当同类间距极小时,该划分极有可能是沿簇中心分裂,从而导致树的过度复杂。因此,选择最大的分裂点,是在一定纯度的基础上,综合划分的结构可靠性做出的选择。
本文用类内离散度和类间离散度的比值度量节点内类紧
(11) |
式中:表示该节点内第k类样本的均值中心;表示节点内第k类的第i个样本;表示该节点内第类的样本数;表示节点内的类别数;为节点内的类间距(Between⁃class margin in the same inner node,BCM),对于二分类任务,直接计算两类均值中心之间的距离为
(12) |
对于多分类任务,根据ECOC(Error⁃correcting output code)编码将其拆分为个二分类任务,根据式计算二分类任务的BCM之和作为总体类间距,即
(13) |
由于不同子节点内样本数不同,且样本数越多,子节点的影响越
(14) |
本文尝试用两步法结合纯度和每次划分的。首先,根据式计算出纯度度量上的最佳分裂点为
(15) |
然后把纯度接近的前个分裂点放进候选点集合中,根据式计算其类紧性。最后,结合纯度和类紧性的最佳分裂点表示为
(16) |
从判别能力的角度看,基于CSN和纯度的决策树是一个局部优的算法,选出的不仅具备较好的判别能力,而且在一定程度上遵循数据内在结构,决策规则更容易理解。
BNM关注同类数据中的簇间差异性,CSN关注类间差异性及类内相似性,因此,将二者与纯度结合可以从簇间关系和类间关系上引入全局结构的知识。算法1描述了分别以加权和两步法结合BNM和CSN作为混合分裂准则的决策树构造算法。首先在当前节点中,根据各个特征的取值确定第一候选分裂点集合,对其中每个分裂点计算,并取最大的个分裂点作为第二候选分裂点集合,计算,选择最小的分裂点作为最佳分裂点。树内设置超参数:最大深度和最小叶内节点数,非叶节点根据得到的最佳分裂点进行分裂,并递归地进行此过程,直到满足递归停止条件:或。
算法1 结合BNM和CSN的决策树构造算法
输入:数据集,最大深度,最小叶内样本数,候选点的个数
输出:一个二分类决策树
(1) build_tree()
(2) if 中样本标签全部相同or
样本数 then
(3) 令为叶子节点,
并根据中最多数的类别赋予其标签
(4) end if
(5) if当前深度:
(6) 根据式计算各个分裂点的
(7) 将各个分裂点的从大到小排序
(8) 取前个分裂点组成候选点集合
(9) for 中的每个候选点 do
(10) 根据式计算的
(11) 最小的分裂点为最优分裂点
(12) end for
(13) 根据分裂,得到,
(14) if or
then
(15) 令为叶子节点,
并根据中最多数的类别赋予其标签
(16) else
(17) build_tree()
(18) build_tree()
(19) end if
(20) end if
(21) return build_tree()
假设当前节点中有个样本,特征维度为,特征有个第一候选分裂点,则第一候选点的总数为。为了得到最佳分裂点,首先对样本的每个特征值进行排序,寻找第一候选分裂点,该过程复杂度为。然后,计算每个候选点的纯度度量,并保存最大值,该过程复杂度为。因此,CART中单个非叶节点的时间复杂度为:。
计算每个候选点的BNM的复杂度为,BNM结合纯度的时间复杂度为:。为了结合CSN,需要对当前得到的纯度进行排序,选择最大的个候选点,计算其CSN,因此CSN结合纯度的时间复杂度为:,BNM+CSN结合纯度的时间复杂度为:。通常情况下,CSN结合纯度的时间复杂度近似于CART,BNM+CSN结合纯度的时间复杂度近似于BNM结合纯度。在下文的实验结果可看出,结合BNM的分裂准则往往能降低树高,减小非叶节点数,因此,通过BNM结合纯度或BNM+CSN结合纯度构造决策树的时间复杂度往往和CART相当,甚至更小。
经典的异或问题是一个多簇数据集上的二分类任务。实验用4个正态分布的二维聚类簇模拟异或问题,其中每个数据集各包含200个样本,空心圆和“+”分别代表两类数据。在实验中,分别用基尼系数、BNM结合基尼系数、CSN结合基尼系数和BNM+CSN结合基尼系数诱导出的4种决策树在生成的异或数据集上训练,结果见




图1 在异或问题上不同分裂准则诱导出的决策树
Fig.1 Decision tree induced by different splitting criteria on XOR problem
在实验中,本文从UC
Dataset | 数据集的详细信息 | C4.5 | Gini | Segment+C4.5 | SPES | SPCE | BNM+Gini | CSN+Gini | BNM+CSN+Gini | |
---|---|---|---|---|---|---|---|---|---|---|
#Insts | #Ftrs | |||||||||
diabetes | 768 | 8 | 0.681 0 | 0.723 9 | 0.720 0 | 0.713 5 | 0.703 1 | 0.748 7 | 0.722 6 | 0.736 9 |
yeast_banlance | 1 484 | 8 | 0.659 7 | 0.701 5 | 0.670 5 | 0.685 3 | 0.686 0 | 0.721 0 | 0.683 3 | 0.724 4 |
Diabetic | 1 762 | 19 | 0.624 7 | 0.628 2 | 0.634 2 | 0.630 8 | 0.626 4 | 0.648 1 | 0.617 7 | 0.630 8 |
Algerian_Forest_Fires | 244 | 10 | 0.959 1 | 0.954 8 | 0.971 3 | 0.971 3 | 0.979 5 | 0.959 0 | 0.971 3 | 0.971 3 |
data_banknote_authentication | 1 372 | 4 | 0.974 5 | 0.946 1 | 0.981 8 | 0.978 1 | 0.989 8 | 0.988 4 | 0.945 4 | 0.990 5 |
adult | 32 561 | 108 | 0.819 4 | 0.839 8 | 0.818 6 | 0.820 0 | 0.817 0 | 0.854 6 | 0.834 9 | 0.852 9 |
Raisin_Dataset | 900 | 7 | 0.808 9 | 0.817 8 | 0.812 2 | 0.821 1 | 0.823 3 | 0.855 6 | 0.824 4 | 0.860 0 |
KnuggetChase3 | 194 | 39 | 0.762 3 | 0.824 8 | 0.778 3 | 0.819 7 | 0.788 9 | 0.819 8 | 0.840 2 | 0.840 2 |
sonar | 208 | 60 | 0.667 9 | 0.702 1 | 0.711 5 | 0.706 4 | 0.793 0 | 0.683 2 | 0.774 0 | 0.793 1 |
waveform1_R | 5 000 | 21 | 0.827 0 | 0.836 8 | 0.832 2 | 0.839 4 | 0.853 0 | 0.849 2 | 0.845 8 | 0.855 4 |
waveform0_R | 5 000 | 21 | 0.798 2 | 0.818 6 | 0.803 6 | 0.812 0 | 0.826 0 | 0.826 8 | 0.822 4 | 0.827 6 |
waveform2_R | 5 000 | 21 | 0.826 4 | 0.857 2 | 0.838 6 | 0.837 4 | 0.859 4 | 0.867 4 | 0.857 8 | 0.863 6 |
appendicitis | 106 | 7 | 0.782 3 | 0.848 5 | 0.782 3 | 0.791 8 | 0.820 8 | 0.858 0 | 0.867 5 | 0.867 5 |
australian | 690 | 14 | 0.805 8 | 0.852 2 | 0.820 3 | 0.813 0 | 0.843 5 | 0.865 2 | 0.789 9 | 0.789 9 |
german | 1 000 | 20 | 0.669 0 | 0.697 0 | 0.688 0 | 0.694 0 | 0.691 0 | 0.736 0 | 0.700 0 | 0.742 0 |
bupa | 345 | 6 | 0.623 2 | 0.655 1 | 0.637 7 | 0.637 7 | 0.687 0 | 0.666 7 | 0.649 3 | 0.672 5 |
banana | 5 300 | 2 | 0.872 5 | 0.877 4 | 0.872 8 | 0.872 8 | 0.870 8 | 0.887 5 | 0.873 0 | 0.887 2 |
ecoil2 | 336 | 7 | 0.887 1 | 0.928 5 | 0.925 5 | 0.913 5 | 0.934 5 | 0.931 4 | 0.925 5 | 0.952 3 |
ecoil3 | 336 | 7 | 0.904 7 | 0.907 6 | 0.937 5 | 0.940 4 | 0.934 6 | 0.916 6 | 0.916 6 | 0.931 5 |
divorce | 170 | 54 | 0.952 9 | 0.964 7 | 0.970 6 | 0.970 6 | 0.976 5 | 0.970 6 | 0.964 7 | 0.970 6 |
Occupancy_estimation | 10 129 | 16 | 0.998 3 | 0.998 0 | 0.998 2 | 0.998 2 | 0.999 4 | 0.995 7 | 0.998 3 | 0.999 0 |
下文用基尼系数(Gini)衡量不纯度,用“+Gini”表示结合纯度,节点内先进行Min⁃max归一化,再计算其BNM或CSN。为了评估此方法,本文与近年来提出的混合分裂准则进行了对比实验,即:segment+C4.5、SPES、SPCE。令,即:当叶内样本数时,停止分裂该节点。此外,对于segment+C4.5、SPES、SPCE、CSN+Gini、BNM+CSN+Gini,设置候选分裂点的个数,并选择最好的作为最佳参数。实验进行了5折交叉验证,最终结果为多个验证集的均值。本文分别用泛化性和模型复杂度评价决策树的性能,泛化性通过测试精度(acc)衡量,模型复杂度通过树深(depth)和叶子节点数(leaf_nodes)体现。
Dataset | Gini | BNM+Gini | CSN+Gini | BNM+CSN+Gini | ||||
---|---|---|---|---|---|---|---|---|
depth | leaf_nodes | depth | leaf_nodes | depth | leaf_nodes | depth | leaf_nodes | |
diabetes | 12.0 | 53.2 | 10.4√ | 30.0 | 10.0√ | 74.8 | 10.0√ | 34.8 |
yeast_banlance | 22.0 | 128.4 | 13√ | 26.2 | 16.4√ | 187.2 | 11.6√ | 85.6 |
Diabetic | 16.2 | 98.0 | 9.8√ | 39.2 | 14.6√ | 139.0 | 16.6√ | 106.8 |
Algerian_Forest_Fires | 2.2 | 3.4 | 2.2 | 3.2 | 3.0 | 4.2 | 3.2 | 4.6 |
data_banknote_authentication | 6.2 | 15.6 | 6.0√ | 20.0 | 6.4 | 14.8 | 6.0√ | 17.2 |
adult | 41.8 | 1 216.6 | 24.8√ | 269.0 | 39.8 | 1 442.8 | 19.8√ | 128.0 |
Raisin_Dataset | 10.4 | 43.6 | 2.8√ | 4.4 | 11.0 | 58.6 | 1.0√ | 2.0 |
KnuggetChase3 | 3.8 | 6.2 | 3.4√ | 6.0 | 5.0 | 11.6 | 3.2√ | 5.6 |
sonar | 5.0 | 10.0 | 5.0 | 11.8 | 4.6√ | 12.4 | 4.4√ | 15.2 |
waveform1_R | 16.4 | 151.2 | 12.8√ | 74.4 | 14.2√ | 153.2 | 13.0√ | 132.2 |
waveform0_R | 14.0 | 167.6 | 13.4√ | 99.2 | 11.2√ | 209.6 | 11.2√ | 109.6 |
waveform2_R | 15.8 | 145.0 | 12.6√ | 107.2 | 13.8√ | 156.2 | 12.4√ | 110.0 |
appendicitis | 2.4 | 4.2 | 1.8√ | 3.2 | 2.0√ | 3.2 | 2.0√ | 3.6 |
australian | 10.4 | 33.2 | 8.8√ | 22.8 | 12.0 | 55.0 | 8.2√ | 18.8 |
german | 13.6 | 78.2 | 12.2√ | 39.2 | 12.8√ | 103.0 | 12.0√ | 49.4 |
bupa | 9.2 | 39.0 | 7.8√ | 21.0 | 8.2√ | 43.2 | 8.0√ | 23.2 |
banana | 22.8 | 243.2 | 14.2√ | 102.8 | 17.0√ | 355.4 | 15.4√ | 126.0 |
ecoil2 | 6.2 | 14.2 | 4.2√ | 8.2 | 5.8√ | 14.2 | 4.4√ | 9.4 |
ecoil3 | 6.4 | 11.6 | 4.6√ | 6.8 | 6.0√ | 14.8 | 6.8 | 15.2 |
divorce | 1.4 | 2.4 | 1.4 | 2.8 | 1.6 | 2.8 | 1.2√ | 2.4 |
Occupancy_estimation | 4.4 | 6.8 | 3.0√ | 4.6 | 5.0 | 8.8 | 8.4 | 12.4 |
为了进一步了解簇间度量的有效性,本文进行了消融实验,BNM及CSN是否被用于结合Gini作为每个分裂准则,实验进行五折交叉验证,选取最佳参数并对21个数据集的实验结果求均值,如
分裂准则 | acc | depth | leaf_nodes | |
---|---|---|---|---|
BNM | CSN | |||
× | × | 0.839 1 | 11.6 | 117.7 |
√ | × | 0.848 6 | 8.3 | 43.0 |
× | √ | 0.843 3 | 10.5 | 145.9 |
√ | √ | 0.856 8 | 8.5 | 48.2 |
为了进一步研究BNM、CSN对分类性能的贡献,本文统计了模型参数的最佳取值,主要关注结合BNM和纯度的加权因子、以及结合CSN的候选点个数。令,

图2 最佳参数的分布直方图
Fig.2 Histogram of distribution of optimal parameters
本文提出了3种纯度结合全局结构的混合分裂准则,从同类间距和类紧性两方面获取簇间关系信息,在满足一定纯度要求的候选分裂点中选择最佳分裂点。本文将其应用于模拟的二维异或问题,和CART相比,该树的划分更接近人类的思维方式,可解释性更强。此外,为了检验其有效性,本文在21个标准验证数据集上与其他混合分裂准则进行了对比实验,实验结果表明,该树具有更好的泛化性和更低的模型复杂度。然而,由于距离度量的局限性,本文的方法只能计算连续数据的BNM和CSN,对于离散数据可用独热(one‑hot)编码转化为连续数据,但在决策树模型中,高维离散数据的one‑hot编码易产生切分不平衡现象。BNM是针对多簇数据集设计的度量,在单簇数据中往往不能发挥很好的作用。此外,考虑到特征相关性和特征重要性也是决策树生长的重要部分,为了进一步研究这一课题,未来将结合目前的工作,将其应用到决策树的分裂生长中。
参考文献
周志华.机器学习[M].北京:清华大学出版社,2016. [百度学术]
ZHOU Zhihua. Machine learning [M]. Beijing: Tsinghua University Press, 2016. [百度学术]
Nor A K M, Pedapati S R, Muhammad M. Reliability engineering applications in electronic, software, nuclear and aerospace industries: A 20 year review (2000—2020)[J]. Ain Shams Engineering Journal, 2021, 12(3): 3009-3019. [百度学术]
Min Z, Ke W, Yang W, et al. Online condition diagnosis for a two-stage gearbox machinery of an aerospace utilization system using an ensemble multi-fault features indexing approach[J]. Chinese Journal of Aeronautics, 2019, 32(5): 1100-1110. [百度学术]
Shi J, He Q, Wang Z. GMM clustering-based decision trees considering fault rate and cluster validity for analog circuit fault diagnosis[J]. IEEE Access, 2019, 7: 140637-140650. [百度学术]
Bertoni A, Hallstedt S I, Dasari S K, et al. Integration of value and sustainability assessment in design space exploration by machine learning: An aerospace application[J]. Design Science, 2020. DOI: https://doi.org/10.1017/dsj.2019.29. [百度学术]
Myles A J, Feudale R N, Liu Y, et al. An introduction to decision tree modeling[J]. Journal of Chemometrics: A Journal of the Chemometrics Society, 2004, 18(6): 275-285. [百度学术]
Wang R, Kwong S, Wang X Z, et al. Segment based decision tree induction with continuous valued attributes[J]. IEEE Transactions on Cybernetics, 2014, 45(7): 1262-1275. [百度学术]
Quinlan J R. Induction of decision trees[J]. Machine Learning, 1986, 1(1): 81-106. [百度学术]
Ross Quinlan J. C4.5: Programs for machine learning[J]. Mach Learn, 1993, 16(3): 235-240. [百度学术]
Breiman L, Friedman J H, Olshen R A, et al. Classification and regression trees (CART)[M]. Belmont, CA, USA: Wadsworth International Group, 1984: 358-361. [百度学术]
Timofeev R. Classification and regression trees (CART) theory and applications[D]. Berlin: Humboldt University, 2004. [百度学术]
Breiman L, Friedman J H, Olshen R A, et al. Classification and regression trees[M]. New York: Routledge Press, 2017. [百度学术]
Yan J, Zhang Z, Xie L, et al. A unified framework for decision tree on continuous attributes[J]. IEEE Access, 2019, 7: 11924-11933. [百度学术]
Yan J, Zhang Z, Lin K, et al. A hybrid scheme-based one-vs-all decision trees for multi-class classification tasks[J]. Knowledge-Based Systems, 2020, 198: 105922. [百度学术]
LI D, CHEN S. A novel splitting criterion inspired by geometric mean metric learning for decision tree[C]//Proceedings of 2022 the 26th International Conference on Pattern Recognition (ICPR).[S.l.]: IEEE, 2022: 4808-4814. [百度学术]
Ow P S, Morton T E. Filtered beam search in scheduling[J]. The International Journal of Production Research, 1988, 26(1): 35-62. [百度学术]
MEISTER C, VIEIRA T, COTTERELL R. If beam search is the answer, what was the question?[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).[S.l.]: Association for Computational Linguistics (ACL), 2020. [百度学术]
Jaworski M, Duda P, Rutkowski L. New splitting criteria for decision trees in stationary data streams[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 29(6): 2516-2529. [百度学术]
Yan J, Zhang Z, Dong H. AdaDT: An adaptive decision tree for addressing local class imbalance based on multiple split criteria[J]. Applied Intelligence, 2021, 51(7): 4744-4761. [百度学术]
PEREIRA BARATA A, TAKES F W, JAAP VAN DEN HERIK H, et al. Fair tree classifier using strong demographic parity[EB/OL]. (2021-10-10). http://10.48550/arxiv.2110.09295. [百度学术]
Rahman M G, Islam M Z. Adaptive decision forest: An incremental machine learning framework[J]. Pattern Recognition, 2022, 122: 108345. [百度学术]
Murtagh F, Contreras P. Algorithms for hierarchical clustering: An overview[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2012, 2(1): 86-97. [百度学术]
Johnson S C. Hierarchical clustering schemes[J]. Psychometrika, 1967, 32(3): 241-254. [百度学术]
Danielsson P E. Euclidean distance mapping[J]. Computer Graphics and Image Processing, 1980, 14(3): 227-248. [百度学术]
Balakrishnama S, Ganapathiraju A. Linear discriminant analysis—A brief tutorial[J]. Institute for Signal and Information Processing, 1998, 18: 1-8. [百度学术]
DUA D, GRAFF C. UCI machine learning repository[EB/OL].(2017-05-10)[2022-04-08]. http://archive.ics.uci.edu/ml. [百度学术]
ALCALÁ-FDEZ J, SANCHEZ L, GARCIA S, et al. KEEL: A software tool to assess evolutionary algorithms for data mining problems[J]. Soft Computing, 2009, 13(3) : 307-318. [百度学术]