哲学告诉我们:“一切事物都是在不断变化和发展的,而科学的目标就是客观地认识这些变化事物中蕴藏的规律”。数据流作为当前大数据的主要形式,定义为随时间动态产生的各种数据(如电力数据、网络数据、传感器数据等),挖掘和预测流数据中隐含的数据模式及演变规律具有重要的理论和现实意义。
目前,数据流分类算法主要采用集成学习策略,然而,该类方法由于其本身的黑箱特性往往带来学习的不准确性。另外,当前数据流挖掘算法往往侧重于对近期数据进行学习,忽略了潜在重要的历史数据。
针对这些问题,电子科技大学,大数据研究中心,数据挖掘与推理研究所的邵俊明教授提出了一种全新的基于原型示例的数据流分类算法。其基本思想是从个体分析的新视角出发,通过分类性能启发式地对数据流中每个数据的重要性进行动态甄别和筛选,用以有效捕获当前最新的数据模式(数据中产生的新规律)用于分类预测。针对数据流的演化特性,提出了基于PCA和统计模型的新方法检测数据流中存在的突变概念漂移。此外,针对海量高速的数据流,提出了基于同步约束聚类的数据压缩方法,从而使得算法不仅具有很高的预测性能,同时使其具有很低的时间和空间复杂度,为实时进行大规模数据流分析提供了全新的思路和技术方法。
J Shao(邵俊明), Z Ahmadi, S Kramer. Prototype-based learning on concept-drifting data streams. ACM SIGKDD, pp. 412-421, 2014.
文章地址:http://dl.acm.org/citation.cfm?id=2623609