新闻动态

统计咨询介绍 | R程序包STCMTL:针对高维线性多任务问题的多任务学习分类算法

时间:2021-10-01

一、研究什么问题?

在当今时代,我们所面临的往往不再是独立的一个个任务,而是一系列具有一定相关关系的任务。在这种情况下,多任务学习方法能够在同时学习多个任务时,通过挖掘任务之间的相关关系以达到提升整体估计、预测的效果。如今,多任务学习方法已经广泛利用于网络搜索、生物信息、计算机视觉等领域。《Semisoft Task Clustering for Multi-Task Learning》 所关注的多任务学习分类算法指的是任务之间存在可以被提取的分类信息,通过同时进行参数估计与分类结构挖掘的方式来得到更好的整体估计效果。

二、R程序包:STCMTL

STCMTL是一种针对高维线性多任务问题的分类算法。启发于有关semisoft clustering的想法。STCMTL能够发掘任务中的硬、软聚类结构,并同时进行变量选择。相比于此前具有相似功能的方法VSTG-MTL,STCMTL所给出的分类结构具有良好的可读性,并且计算速度有了大幅度的提升。

20211001/60b764e52de18a20a283fadf41e4cb6d.jpg

在《Semisoft Task Clustering for Multi-Task Learning》中我们分别针对线性回归问题及二分类问题选择了Isolet、School和MNIST、USPS四个数据集,其中除School数据集外的数据集单个任务的变量数均多于样本数。从Table 4中可以看到,在回归问题中STCMTL与VSTG-MTL明显好于其他方法;在二分类问题中,STCMTL的预测优势明显。在Table 5中我们进一步对比了STCMTL与VSTG-MTL的计算速度,可以看到由于STCMTL的调参便捷性使得其整体运算时间相较VSTG-MTL有了极大提升。

20211001/b657bfdccd04ad559abdc4b312aede9b.jpg

三、下载说明

使用者可以从https://github.com/RUCyuzhao/STCMTL下载tar.gz文件进行安装,具体使用说明及举例可以看help文档及Usage.html(请下载后观看)。除算法函数外,STCMTL包中还包含有三类模拟数据生成函数及上述四个数据集封装后数据,可供软件包使用者调用。

需要注意的是,STCMTL中所使用的SOUP包不能直接从CRAN上下载,而需要使用命令devtools::install_github(“lingxuez/SOUP”)从github上下载正确版本。

20211001/687f59d97fecf2d30f8cb32f1f5c8142.jpg

北京市海淀区中关村大街59号 电话:(86)10-62511318 传真:(86)10-62515246 邮编:100872

版权所有 © 中国人民大学统计学院