摘要
针对现实场景中大量无监督数据无法有效利用的特点,提出了一种基于数据相似度匹配的半监督学习算法。该方法结合一定的先验知识,通过无监督学习的方式,计算未标记数据与少量有标记数据之间相似度,从而对少数类样本进行扩充。利用构造后的数据集进行模型训练,从而提高模型对于少数类的识别效果。该方法能有效改进分类任务中数据分布不平衡及标记困难的问题,在一组基于真实场景下的电力传感器检测数据分类任务中取得了较好的少数类识别效果。通过对比传统以及半监督的多种分类算法,该方法虽然在准确率上低于传统方法,但是在召回率与F1值的表现上超越传统方法。
数据分类问题是数据挖掘领域的典型问题,一个表现良好的分类模型,往往离不开充分的有监督数据的支持。然而在现实的应用场景之中,受限于数据标记的难度以及正负样本分布比例等一系列问题,含标记的有监督数据往往十分有限,并且这有限的标记据还会存在类别标签分布不平衡的情况。所以对于此类数据,基于其数据特点,如果将传统的分类算法应用于此类任务之中,往往会过拟合于标记数据中的多数类,难以识别出少数类,从而无法取得让人满意的效果。
针对一组给定的数据 ,从而预测一个离散值的任务被称为“分类”,依照输出分类目标类别的不同,分类任务可以被分为“二分类”与“多分类”。数据分类任务的目标便是在于建立输入空间到输出空间之间的映射。
数据分类任务往往需要有监督数据的支撑,有监督数据质量的高低很大程度上影响着模型分类的效果。对于大多数常见的公开数据集,一般拥有着大量的数据标记样本,且样本在类别上的相对分布比较均匀。然而在现实的某一应用场景之中,数据的质量与数量往往是机器学习任务所要面临的第一个难题,这很大程度上制约了模型的效果。
现实场景下分类任务的的数据一般包含以下难题:
(1) 数据的有监督信息有限。现实场景中的机器学习任务,很可能积攒了十分丰富的历史数据,然而这些数据中包含标记的数据十分有限,所以从有监督学习的角度来看,大量数据无法构造监督信息,从而造成模型仅能从有限的数据中学习特征。
(2) 数据的类别分布不平衡。在某一领域的数据之中,数据在类别上的分布可能存在着不平衡的问题。在这样的数据集中,不同标签下的数据量之间不成正比,与此同时在类别间数据量的比例上,以一个二分类任务而言,负正样本之间的比例可能高达999∶1,这样的数据往往难以实现对占比较少的数据类别进行识别。
(3) 数据的标记内容具有强领域性。现实中的数据标注任务很可能需要领域性很强的专业知识,猫狗图片数据的标注对于绝大多数人而言都可胜任,但是利用X光片判断病患是否患有癌症,却只有受训多年的肿瘤内科医生才能胜任。此类数据标注的强领域性,制约了该类任务只能在小样本的数据上展开工作,从而限制了模型分类的效果。
本文主要讨论一种基于相似度的半监督分类算法,主要针对有监督标记数据有限,标记数据类别不均衡以及标记内容领域性强的场景。通过计算无标记数据与有标记数据相似度的方式扩充少数类集合,利用半监督学习的方式提高模型对于少数类的分类识别效果。
对于部分的数据而言,数据分布在数据的类别上往往不是均衡的,对于那些类别严重失衡的问题常被定义为不平衡学
针对不平衡学习分类任务的特点,主要从以下两个方进行解决:(1)通过调整数据分布的方法进行优化;(2)通过改进模型算法的方式进行优化。
通过改变数据分布的优化方法,主要是通过数据采样的方式,利用一定的手段对数据类别比例进行调整,这样将在一定程度上缓解数据不平衡的问题,使得数据的分布趋向于平衡状态,数据采样一般分为2种方法:(1)对不平衡数据集中的少数类进行重采样;(2)对多数类中的样本欠采
在数据分布调整上,有Chawla等提出的一种通过创造合成样本来实现对少数类过采样的方法,称之为SMOTE(Synthetic minority over⁃sampling technique
在算法模型上,Domingos等提出了一种基于代价敏感的学习算
半监督学
对于一个分类任务而言,以二分类任务为例,一个分类效果良好的分类器往往需要充分利用向好的正负样本进行学习,从而学习出正负类别中的特征。但是基于前文所述,在现实的应用场景之中,经常存在数据标注难度大、数据样本分布不均衡以及标记信息有限等诸多问题,以上问题所导致的直接影响便是用于学习的标记样本其分布上存在着不均衡。
基于样本类别分布不均衡的数据所训练得到的分类器,往往会过拟合于不均衡数据集中的多数类,从而难以识别少数类。这种情况下仅从准确率的视角衡量模型的效果便不够客观,因为数据集中多数类样本充分,可供学习的数据众多,分类器便能够充分学习出多数类中的特征。但是这样的分类器在本质上过拟合于多数类,分类器几乎无法识别出所有的少数类。在现实的应用场景之中,对于不平衡数据而言,相比识别常见的多数类,识别出不平衡数据中的少数类往往更具有价值。
本文所要处理的分类任务来自于某一工业领域,在某一区域范围之内均匀散布了几十万个传感器,其中绝大部分数据是无标记数据。有标记的数据划分为两类结果,无显示数据N与有显示数据P,以及半监督数据P',其中有显示数据P为主要的识别目标,D为半监督数据的筛选范围,如

图1 数据采样分布图
Fig.1 Data sampling distribution diagram
此工业数据分类任务存在以下难题:(1)样本数据众多,但含有标记信息样本较少;(2)标记数据中正负样本比例差距大;(3)数据标记难度大。
本文提出一种基于相似度度量的半监督分类算法。其主要的方式是,围绕任务目标数据集中的少数类中的样本,针对其中的每一个少数类正例样本,在周围限定的一个区域,该区域范围内包的无标记数据集合为,对与区域内的某一个样本,其并不存在标签,随后对内的所有数据进聚类。其核心思想是针对任务目标数据中样本数量比例差距较大的特点,缓解分类器在训练过程中过拟合于占比较大类别的数据所导致的问题。
针对上述任务描述,在同业务人员的交流中得知,标记为正例的数据其周围的数据大概率也为正类,相同类别的数据之间的相似性较高,随后从聚类结果中挑选与区域内正例标记数据最为相似的类别集合,将其作为可信正例集合,并以此扩充正例样本,缓解数据标记集合中样本分布不均衡的情况,最后利用扩充集合中的数据进行模型训练,并得出分类器。
基于前文所述,有显示数据P为数据集合中的少数类,由于标记数据的难度较大,所以训练集中少数的有显示数据,无法充分反映少数类数据特征在全局状态下对于全体少数类集合的分布。因此很有必要针对进行扩充。
本文使用[
存在两个问题需要明确:
(1) 如何制定一套机制,以确定算法中的取值。对于一个有监督分类任务而言,数据需要被划分的类别是明确的。如

图2 围绕可信数据P的聚类结果示例图
Fig.2 Example graph of clustering results around trusted data P
(2) 如何建立一个方法,以度量算法聚类所得的个类别中与可信少数类数据之间的相似
(1) |
针对以上问题,本文提出了一种基于聚类的相似度收敛算法。通过设置一组逐渐递增的k值,随着k值的递增加,聚类得到的类别逐步精细,当个类别中与标记数据的距离开始收敛的时候,停止k值的递增,并将该类别作为可信正例集合,其整体流程如

图3 半监督数据扩充流程图
Fig.3 Flow chart of semi-supervised data expansion method
以

图4 可信数据P点K-means聚类变化图
Fig.4 K-means cluster change graph of trusted data point P

图5 聚类数目以及距离变化图
Fig.5 Cluster number and distance change graph
可以看到,利用上述方法可以得到稳定的且距离不平衡数据中少数类最近的数据集合,这些原本没有标记的数据将作为半监督学习中的训练数据。
算法1 基于聚类的相似度收敛算法
输入:
输出:
Initialize i = 1, minDis = +∞,
for each ki ∈ Kvalues do
Dk = K⁃means(D, ki)
for each ∈ Dk do
currenDis = Distance(P, )
if |currentDis - minDis| ≤ λ then
return k, i,
else
if currentDis ≤ minDis then
currentDis = minDis
else
minDis = currentDis
end if
end if
End for
End for
为了有效地评价模型的分类效果,本文主要应用到了准确率(Accuracy)、召回率(Recall)以及标准的度量,式(
(2) |
(3) |
(4) |
本文所应用到的数据集来自于某一工业领域,共包含传感器采集的数据221 121条,每一条数据包含30个特征,其中包含标记的数据仅有480条,标记数据中正例数据31条,其余皆为负例。在此标记数据的基础上,利用前文所述的方法,围绕着正例标记数据构造可信正例数据157条。以上为本实验所应用到的数据集。
在实验过程中,采用如下方式进行实验,其中对于标记数据集,将其中的 80% 作为训练集,20% 作为测试集。对于可信数据集,则只将其添加到训练集中,构造半监督训练集。实验过程中将分别利用训练集与半监督训练集进行模型训练,得出普通的分类器与半监督分类器。然后利用测试集评价上述两组分类器的效果。为准确衡量本文算法的效果,利用了多个分类器来评判算法的效果。
从
本文提出了一种基于半监督学习的工业数据分类算法,该方法针对需某类传感器数据分类任务,在其标记信息少、标记难度大以及正负样本分类不均衡的情况下,创新地提出利用聚类算法,将围绕少数类标记数据中的数据进行无监督聚类,基于聚类数据与少数类标记数据的相似度度量,构造一批可信正例半监督数据,并将其用于模型训练,从而得到半监督分类器,经多种分类模型进行半监督训练测试验证,虽然模型的准确率受到了一定的影响,但是模型在召回率与值的表现上明显优于传统的方法,这表明本文方法有效地识别出了不平衡工业传感器数据数据集中重点需要识别出的少数类,在真实的生产与应用环境中具有一定的应用价值。
参考文献
HE H, GARCIA E A. Learning from imbalanced data[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9): 1263-1284. [百度学术]
CHAWLA N V, JAPKOWICZ N, KOTCZ A. Special issue on learning from imbalanced data sets[J]. ACM SIGKDD Explorations Newsletter, 2004, 6(1): 1-6. [百度学术]
DRUMMOND C, HOLTE R C, et al. C4. 5, class imbalance, and cost sensitivity: Why under-sampling beats over-sampling[C]//Proceedings of Workshop on Learning From Imbalanced Datasets II: volume 11. [S.l.]: Citeseer, 2003: 1-8. [百度学术]
CHAWLA N V, BOWYER K W, HALL L O, et al. Smote: Synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16: 321-357. [百度学术]
CHAWLA N V, LAZAREVIC A, HALL L O, et al. Smoteboost: Improving prediction of the minority class in boosting[C]//Proceedings of European Conference on Principles of Data Mining and Knowledge Discovery. [S.l.]: Springer, 2003: 107-119. [百度学术]
HAN H, WANG W Y, MAO B H. Borderline-smote: A new over-sampling method in imbalanced data sets learning[C]//Proceedings of International Conference on intelligent Computing. [S.l.]: Springer, 2005: 878-887. [百度学术]
HE H, BAI Y, GARCIA E A, et al. ADASYN: Adaptive synthetic sampling approach for imbalanced learning[C]//Proceedings of 2008 IEEE International Joint Conference on neural Networks (IEEE World Congress on Computational Intelligence). [S.l.]: IEEE, 2008: 1322-1328. [百度学术]
DOMINGOS P. Metacost: A general method for making classifiers cost-sensitive[C]//Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Francisco, CA, USA: ACM, 2001. [百度学术]
ELKAN C. The foundations of cost-sensitive learning[C]//Proceedings of International Joint Conference on Artificial Intelligence. [S.l.]: Lawrence Erlbaum Associates Ltd, 2001: 973-978. [百度学术]
ZADROZNY B, LANGFORD J, ABE N. Cost-sensitive learning by cost-proportionate example weighting[C]//Proceedings of Third IEEE International Conference on Data Mining. [S.l.]: IEEE, 2003: 435-442. [百度学术]
ZHU X J. Semi-supervised learning literature survey[R]. [S.l.]: University of Wisconsin-Madison Department of Computer Sciences, 2005. [百度学术]
ZHU X, GOLDBERG A B. Introduction to semi-supervised learning [J]. Synthesis Lectures on Artificial Intelligence and Machine Learning, 2009, 3(1): 1-130. [百度学术]
刘建伟, 刘媛, 罗雄麟, 等. 半监督学习方法[J]. 计算机学报, 2015,38(8): 1592-1617. [百度学术]
Liu Jianwei, Liu Yuan, Luo Xionglin, et al. Semi-supervised learning method[J]. Journal of Computer, 2015,38(8): 1592-1617 [百度学术]
MERZ C J, CLAIR D S, BOND W E. Semi-supervised adaptive res- onance theory (smart2)[C]//Proceedings 1992 IJCNN International Joint Conference on Neural Networks. [S.l.]: IEEE, 1992: 851-856. [百度学术]
BLUM A, MITCHELL T. Combining labeled and unlabeled data with co-training[C]//Proceedings of the Eleventh Annual Conference on Computational Learning Theory. Madison, Wisconsion: ACM, 1998. [百度学术]
HSIAO J Y, TANG C Y, CHANG R S. An efficient algorithm for finding a maximum weight 2-independent set on interval graphs[J]. Information Processing Letters, 1992, 43(5): 229-235. [百度学术]
LIN T, ZHA H. Riemannian manifold learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(5): 796-809. [百度学术]
WAGSTAFF K, CARDIE C, ROGERS S, et al. Constrained K-means clustering with background knowledge[C]//Proceedings of ICML. [S.l.]: ACM, 2001: 577-584. [百度学术]
LU S, PEREVERZEV S V, RAMLAU R. An analysis of tikhonov regularization for nonlinear ill-posed problems under a general smoothness assumption[J]. Inverse Problems, 2006, 23(1): 217. [百度学术]
RIGOLLET P. Generalization error bounds in semi-supervised classification under the cluster assumption[J]. Journal of Machine Learning Research, 2007, 8: 1369-1392. [百度学术]
GUO G D, JAIN A K, MA W Y, et al. Learning similarity measure for natural image retrieval with relevance feedback[J]. IEEE Transactions on Neural Networks, 2002, 13(4): 811-820. [百度学术]