新闻动态

统计咨询介绍 | R程序包QCSIS:稳健的超高维变量选择工具

时间:2021-10-01

一、超高维变量筛选

目前超高维数据越来越多出现在遗传、基因芯片、磁共振成像等领域。超高维数据一般用来表示变量个数远远大于样本量的数据。稀疏性假定是处理超高维(高维)问题的基本假定,即假定只有少数的自变量对于因变量产生影响,也就说自变量系数为零的很多,非零的很少。这种假定在一定程度是合理性的,因为对某一个事物的影响也许有很多因素,但起主要作用也许只有很少的几个。Sure Independent Screening(SIS)是常用的处理超高维的方法。SIS可以方便快捷的筛选变量,即通过简单排序筛选变量。SIS筛选出来的变量比较多,它可以确保那些对因变量有影响的自变量全部被选出,这也是被称为确保(Sure)的原因。

二、R程序包:QCSIS

针对含有异常值的超高维数据,我们编写了QCSIS,其主要实现基于分位数相关系数的超高维变量筛选,详细内容见 《Robust model-free feature screening via quantile correlation. Journal of Multivariate Analysis, 2016. 143, 472-480》。该R软件包已经上传至CRAN官方服务器,配有完整的功能帮助文档,内置了4个函数以帮助使用者快速实现代码实例。

20211001/000cb8a56ca47a78f6a433722a407548.jpg

三、该程序包有什么特色?

我们将随机变量QC)定义为: 

20211001/83244904575e219ed73a60307501955a.jpg


假设

20211001/9a4d56113d4ce298effacb9f7189dc4e.jpg

且将每个元素的定义为:

20211001/4f45639d543d8832997441ec6ed609a1.jpg

对w进行从小到大排序,取前面d个变量。这种方法简称为QC-SIS(Quantile Correlation-Sure Independent Screening)。QC-SIS并不需要具体模型的假定,并且对于异常值不敏感,是一种稳健的模型自由(Model-free)变量筛选方法。

据统计,从2015年12月2日将QCSIS上传R,至2021年3月9日已被下载19193次,下载情况如下图所示,这个包比较活跃,最近一年时间被下载次数明显高于前几年。

20211001/a760c9015b3f3d8a98b8e17e3608bf75.jpg

图1 QCSIS下载次数

北京市海淀区中关村大街59号 电话:(86)10-62511318 传真:(86)10-62515246 邮编:100872

版权所有 © 中国人民大学统计学院