第二届上海大学十大学术进展候选项目简介
(申报编号:XSJZ-202208)
一、学术进展名称及负责人:
异构数据聚类与学习
冯国瑞(上海大学通信与信息工程学院教授)
二、项目背景:
大数据有很大的社会价值,能够为人们深入了解和认识当前世界提供丰富的信息。作为无监督学习的一种重要机器学习方法,聚类分析是进行大数据分析处理和挖掘的首要任务。聚类分析指的是将给定的对象划分为不同类别的过程,不同视角的特征从不同方面描述了数据样本。
现有的单视角聚类方法在一些标准数据集上未能获得令人满意的结果,原因之一是得到的相似性矩阵无法保证具有块对角结构。另外,很多聚类算法的鲁棒性不能得到较好的保证。考虑到大数据时代中海量无监督数据的存在,现有的很多聚类方法未能兼顾运行时间和性能。在处理多视角数据时,多视角聚类方法无法有效利用已知的监督信息,导致未能学到理想的相似性矩阵。
三、学术进展及创新点:
1.提出一种结构子空间学习的对称非负矩阵分解方法。考虑到现有的方法未能学到有效的相似性矩阵,该方法同时利用了数据必须连接的约束和不能连接的约束,学习了一个潜在的子空间,从而有效考虑了数据的全局和局部结构。此外,项目还提出一种块对角诱导的对称非负矩阵分解方法。考虑到现有的方法未能有效地学到具有块对角结构的相似性矩阵,该方法在待学习的相似性矩阵上引入块对角结构的约束,能同时考虑所得相似性矩阵的稀疏性和光滑性。
2.提出一种具有解析解的强制块对角子空间聚类方法。分析了谱聚类和基于块对角表示的子空间聚类之间的理论关系。可同时兼顾所花费的运行时间和精度。此外,基于块对角的子空间聚类还提出从能量的角度移除映射空间中的错误。考虑到块对角属性可以引导获得正确的聚类结果,该方法在映射的空间中使用能量函数来衡量块的正确性。
(3)提出半监督结构子空间学习的方法对多视角数据进行聚类。该方法将传统的多视角聚类拓展到半监督的形式,并利用已知的监督信息构建一个反块对角指示矩阵,从而可以获得具有块对角结构的共享相似性矩阵。
图1半监督学习的多视角聚类示意图
(4)提出了基于一致性诱导学习的多视角聚类方法。综合考虑结构一致性和标签分配一致性两种属性。
图2一致性诱导学习的多视角聚类示意图
四、研究成果及应用情况、学术及社会影响:
1. 代表性成果(论著、专利和获奖)
(1) Qin Yalan, Zhang Xinpeng, Shen Liquan, Feng Guorui. (2022). Maximum Block Energy Guided Robust Subspace Clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence. (SCI一区)
(2) Qin Yalan, Wu Hanzhou, Zhang Xinpeng, Feng Guorui. (2021). Semi-Supervised Structured Subspace Learning for Multi-View Clustering. IEEE Transactions on Image Processing. (SCI一区)
(3) Qin Yalan, Feng Guorui, Ren Yanli, Zhang Xinpeng. (2021). Block-Diagonal Guided Symmetric Nonnegative Matrix Factorization. IEEE Transactions on Knowledge and Data Engineering. (SCI二区)
(4) Qin Yalan, Feng Guorui, Ren Yanli, Zhang Xinpeng. (2022). Consistency-Induced Multiview Subspace Clustering. IEEE Transactions on Cybernetics. (SCI一区)
(5) Qin Yalan, Wu Hanzhou, Zhao Jian, Feng Guorui. (2022). Enforced Block Diagonal Subspace Clustering with Closed Form Solution. Pattern Recognition. (SCI一区)
2. 学术及社会影响
本项目的实施可以保证当前大数据时代下对无监督数据的有效处理,同时也保证对多视角数据的有效分析。该项目在发现和挖掘数据价值的同时,也为其它应用和方法提供了数据分析和处理的基础。对国家和人民有效利用和挖掘大数据时代下海量无监督数据的价值有着重要的推动作用。
图3 IEEE TPAMI