我院在读博士生朱映秋、张波教授、黄丹阳副教授就交易数据聚类分析问题在《JRSSC》发表论文

时间:2021-11-14

我院在读博士生朱映秋在《Journal of the Royal Statistical Society. Series C: Applied Statistics》发表论文。该研究从基于交易数据的商户聚类问题出发,提出一种针对分布函数的聚类方法。随着电子支付的普及和发展,海量的商户交易流水被记录存储下来,这些交易记录为分析小微商户的行为模式提供了宝贵的数据资源。而传统的交易数据分析方法通常基于特征工程,对原始交易流水提取低维特征并利用特征向量进行聚类等后续分析。一方面,如何构造和选择合适的聚类特征需要较强的专家经验、额外的人力成本投入。另一方面,提取特征带来不可避免的信息损失,容易对聚类效果带来负面影响。为了充分利用交易流水数据,减小信息损失,本文在特征工程的框架之外另辟蹊径,利用商户交易金额的经验分布函数来刻画商户的行为模式,进而对经验分布函数进行聚类,实现对不同类型商户的区分。将每个商户通过分布函数表示后,本文采用两样本Kolmogorov–Smirnov检验中的统计量作为经验分布函数之间差异性的度量,并提出一种划分式的聚类算法,Kolmogorov–Smirnov K-means clustering(KSKC)算法。本文从理论上证明了该算法的一致性,并证明在较为一般的条件下,聚类的误差率能够随着样本量的增加趋于0。同时,考虑到交易数据通常规模巨大,本文还对KSKC算法提出改进计算效率的近似计算版本Fast KSKC,适合在大规模数据集上的应用。本文利用某第三方支付平台积累的实际交易数据对KSKC算法的聚类效果进行验证,结果表明该方法的聚类表现明显优于基于特征的聚类方法。KSKC能够通过分布上的差异有效区分具有不同行为模式的商户,例如正常经营商户、套现商户(利用POS机制造虚假交易、套取信用卡额度)、“薅羊毛”商户(投机者,通过小额交易赚取支付平台提供的奖励金)。因此,本文方法能够为小微商户的行为模式分析,小微企业相关的差异化风控、营销管理提供决策支持。此外,本文针对经验分布函数的聚类提出了一种新的方法,在具有类似数据结构的场景中也能够应用,这为减小聚类分析的信息损失提供了一种新的思路。


论文题目

Clustering based on Kolmogorov-Smirnov statistic with application to bank card transaction data

文章摘要

Rapid developments in third-party online payment platforms now make it possible to record massive bank card transaction data. Clustering on such transaction data is of great importance for the analysis of merchant behaviours. However, traditional methods based on generated features inevitably lead to much loss of information. To make better use of bank card transaction data, this study investigates the possibility of using the empirical cumulative distribution of transaction amounts. As the distance between two merchants can be measured using the two-sample Kolmogorov–Smirnov test statistic, we propose the Kolmogorov–Smirnov K-means clustering approach based on this distance measure. An approximation step is conducted to ensure the feasibility of the proposed method even for large-scale transaction data, and the associated theoretical properties are investigated. Both simulations and an empirical study demonstrate that our method outperforms feature-based methods and is computationally efficient for large-scale data sets.

作者介绍

朱映秋,中国人民大学统计学院在读博士生,主要研究方向为数据挖掘、深度学习、复杂网络建模。

图片

合作研究团队

张波,中国人民大学统计学院教授

黄丹阳,中国人民大学统计学院副教授

荊炳义,香港科技大学数学系教授

邓琼,中国人民大学统计学院博士研究生

发表页面

图片


北京市海淀区中关村大街59号 电话:(86)10-62511318 传真:(86)10-62515246 邮编:100872

版权所有 © 中国人民大学统计学院