仅具有单标记的多标签学习任务研究

(整期优先)网络出版时间:2024-04-23
/ 2

仅具有单标记的多标签学习任务研究

冯书哲 房念西 周黄莉

(江苏大学 江苏镇江 212003)

摘要:随着信息化和机械化设备的普及以及计算机存储能力的提升,越来越多的高维特征数据得以保存。这些高维数据在为多领域应用提供海量信息的同时,也造成了维度灾难问题。另外,高维多标签数据是当前机器学习领域的研究热点之一,多标签数据是指一个样本同时与多个语义相关联,它广泛应用在文本、音频、基因等领域。本文利用特征选择技术对高维多标签数据进行降维并分类。以特征工程为基本平台结合多类特征选择方法,基于结构稀疏化学习的嵌入式特征选择算法和基于信息论的过滤式特征选择算法提出解决上述问题技术方案,过滤掉冗余和对分类起负作用的无关特征,增强机器学习效率与准确率,可以有效的处理掉此类问题

关键词:多标签学习单标记应用发展

一、研究背景与意义

在大数据时代的大背景下,云计算、人工智能、物联网、边缘计算等新颖技术手段在各行各业得到了愈加广泛的普及,同时伴随着信息技术和网络应用技术的迅猛发展,全球各个领域的数据量呈现了激增的态势。根据国际数据公司IDC在2018年11月发表的白皮书对2010到2025年全球数据圈规模统计及预测--即存储在数据中心、边缘设备和端点计算设备上的数字内容的总量,其中部分数字与2017年5月发布的相比有所变动,对2025年全球数据量总和的预测从163ZB提高到了175ZB,可见当前所处的信息化时代数据增速之快。多标签数据是指一个样本同时与多个语义相关联,它广泛应用在文本、音频、基因等领域。本项目将利用特征选择技术对高维多标签数据进行降维并分类。特征选择技术不仅可以抽取高维特征中的关键特征用来训练分类器并建模,还可以帮助研究者更好的理解模型,并提高模型执行效率。

二、国内外研究现状

早在1927年,比利时天文学和宇宙学家勒梅特首次提出宇宙大爆炸的概念,而随着社会发展和进步,“大爆炸”一词不再仅仅局限于此学说,如“技术大爆炸”或是现如今社会所面临的“信息大爆炸”。从科学的角度讲,信息指的是音频、视频、消息、以及通讯系统传输和处理的对象,它可以泛化的指代人类社会传播的一切内容。而数据是信息的具体表现形式,数据经过加工处理就可以呈现为信息;信息需要经过数字化转变才能进行传输、转发和存储,二者建立了含义与载体的关系。

特征选择是一种重要的数据降维和预处理技术,同时它也是一个可以发现数据内在本质的实用工具。截至到1997年,几篇关于变量和特征选择的论文出版,但很少有研究领域使用超过40个特征的维度。随着后期数据维度的高速增长,该技术手段在图像识别、文本挖掘、生物信息数据分析和基因组分析等领域中都面临着广泛应用。例如在文本挖掘领域,如垃圾邮件分类、商业数据分析和语义分析等典型的文本任务中,尽管已经有较多的训练样本可供机器学习算法建模,但是就数据集中超高的特征维度而言,仍然可能面临着训练样本不足的情况。以英文文本分类为例,日常生活中常见的单词数量大概可以达到104数量级,若是对特征组合进行考虑,呈指数级增长的特征维度会使该技术面临巨大考验。无监督包裹式模型使用一种基于聚类的算法来提高特征选择的有效性,聚类是无监督学习中最典型的任务之一,它的工作原理是利用一定的相似性准则将实例划分为组或者簇的过程。每个组或者簇在聚类内具有最大的同质性,在若干聚类之间具有大异质性。近年来,学者们设计各种特征选择方法进行聚类。Dy、Brodley等人利用EM聚类,通过特征子集选择研究包裹式框架,应用EM算法估计有限高斯混合函数的最大似然参数,然后利用离散可拆分性和最大似然对候选特征子集进行评价。

三、多标签学习技术

近十多年来,随着科学技术的快速发展,大量多标签数据涌现在数据处理领域,多标签学习又称多标记学习技术已经成为了数据挖掘和机器学习领域中处理分类任务的重要热点研究问题。分类任务表示的是为了预测由特征向量描述的实例所对应类标签的过程。在多标签学习的整体框架下,任何实例都被同时赋予若干个特征变量和标记变量。

3.1多标签学习分类方法

传统的单标签分类方法不能应用于多标签学习任务中,于是众多算法被提出用于处理多标签数据集,它们可以被分成两大类,分别是问题转化法和算法适应法。问题转化法在宏观上的理解是将多标记问题转化为其他分类问题,再利用现有学习方法进行处理,其优点是在实现转化后,可以选择更多成熟的监督学习分类算法。常见的问题转化法可以分为两种类型,第一种是在每个实例的多标签子集中仅选择一个,该标签可以是数据集中最频繁的、最不频繁的或是一个随机的。其二是将标签向量中的每个标签实例复制d次,d表示该样本的标签个数。第一种方法的一大缺点是这种转换法会忽略标签间的相关性从而影响到模型分类效果。算法适应法,又称为算法改编方法,与问题转化法不同,该方法主要是通过直接改进一些现有成熟机器算法,使其能够直接对多标签数据集进行分类预测,虽然这种方式难度更大,但该方法可以有效地避免信息在问题转化方法过程中的丢失和损失。

3.2多标签特征选择方法

无论采用问题转化法还是算法适应法,多标签特征选择方法都面临着一个共同的难点,样本可能同时与多个标记有关,这也就造成了一个非常巨大而复杂的输出空间,并且该输出空间的增长随着标记个数呈现指数级上升趋势。若是为每一个标记设计独立的二分类模型,则有些标记的正类样本不足会导致分类模型泛化性较差,并且需要训练分类器数目较大,存储和计算开销惊人。相反若是将不同标记集分别当作一个类别训练一个多分类器,巨大的类别数目摆在面前并且难以预测训练集合以外的标记。探究标记之间关系成为了一个研究趋势,可以为分类提供额外的有用信息,更有利于多标签特征选择的泛化性能。为了尽可能的有效利用标签关联信息,用这种相关性来促进学习过程,应对指数大小的输出空间挑战,故产生了根据多标签选择算法中利用标签相关性的策略不同的分类方式。

四、总结

基于稀疏化的多标签嵌入式特征选择算法在处理多标签数据时展现了巨大潜力,所用到的稀疏化理论与正则化技术不仅可以在特征选择领域发挥作用,更重要的是相关技术也可以用在深度学习,聚类分类研究和数理统计等多个前沿研究方向。而基于信息论的过滤式特征选择在效率上有着很大优势,同样也具有广泛应用前景。

参考文献

[1]黄伟, 刘贵全.MSML-BERT 模型的层级多标签文本分类方法研究[J]. 计算机工程与应用,2022,58(15):191-201.

[2]耿蕾蕾,崔超然,石成,申朕,尹义龙,冯仕红.基于深度多任务学习的社交图像标签和分组联合推荐[J].计算机科学,2020,47(12):177-182..

[3]原尉峰,郭佳明,苏卓,罗笑南,周凡.结合深度多标签解析的哈希服装检索[J].中国图象图形学报,2019,24(02):159-169.

[4]张钰,刘建伟,左信.多任务学习[J].计算机学报,2020,43(07):1340-1378..

[5]张苗辉,张博,高诚诚.一种多任务的卷积神经网络目标分类算法[J].激光与光电子学进展,2019,56(23):222-229.

冯书哲(2003)男;江苏常州;江苏大学计算机科学与通信工程学院;主要研究方向:智能科技2101)

房念西(2003)男;河南南阳;江苏大学计算机科学与通信工程学院;主要研究方向:智能科技2202)

周黄莉(2004)女;江苏南通;江苏大学计算机科学与通信工程学院;主要研究方向:计算机科学与技术2104)

基金项目:本文系2023年江苏大学第22批科研课题立项资助项目(项目编号:22A335)研究成果。