一种面向不确定数据流的模体发现算法

王菊; 刘付显; 靳春杰; 李祯东

doi:10.3969/j.issn.1001-0548.2017.01.013

一种面向不确定数据流的模体发现算法

doi: 10.3969/j.issn.1001-0548.2017.01.013

1.
空军工程大学防空反导学院西安 710051
2.
93527部队河北张家口 075000
3.
93787部队北京丰台区 100076

基金项目:

国家自然科学基金 61272011

详细信息

作者简介:
王菊(1991-),女,博士生,主要从事数据挖掘方面的研究

中图分类号: TP391

New Motif Discovery Algorithm for Uncertain Data Stream

1.
Air and Missile Defense College, Air Force Engineering University Xi'an 710051
2.
93527 Military Unit Zhangjiakou Heibei 075000
3.
93787 Military Unit Fengtai Beijing 100076

摘要: 借鉴生物信息学中序列模式发现思想，提出了基于MEME（multiple expectation-maximization for motif elicitation）的不确定数据流模体发现算法。该算法根据不确定数据流的特点，设计了不确定滑动窗口的简化计算方法，改进了SAX（symbolic aggregate approximation）的符号化策略，用防空反导情报传感器网络中的一组不确定数据流验证了其可行性，通过植入不同数目模体的方法测试了其准确性，并在元组存在概率为1的条件下与已有算法进行比较，验证其有效性。
- MEME算法 /
- 模体发现 /
- SAX /
- 不确定数据流 /
- 不确定滑动窗口
Abstract: A new MEME-based motif discovery algorithm for uncertain data stream is proposed by using the idea of sequential pattern discovery in bioinformatics. According to features of uncertain data stream, the new algorithm designs a simplified calculation method for uncertain sliding window and modifies the SAX symbolic strategy. The feasibility of the proposed algorithm is verified by one uncertain test data stream from air and missile defense sensors. And its accuracy is measured through planting different number motifs. Furthermore, the proposed algorithm is validated by comparing with existing algorithms in the condition that the existence probability of tuples is set to 1.
- MEME algorithm /
- motif discovery /
- SAX /
- uncertain data stream /
- uncertain sliding window

图 1 PAA过程示例

下载: 全尺寸图片幻灯片

图 2 时间序列的符号化表示

下载: 全尺寸图片幻灯片

图 3 算法流程图

下载: 全尺寸图片幻灯片

图 4 ${{{S}'}_{1}},{{{S}'}_{2}},{{{S}'}_{3}}$的图形表示

下载: 全尺寸图片幻灯片

图 5 模体发现结果

下载: 全尺寸图片幻灯片

图 6 模体在原数据中的位置及形状

下载: 全尺寸图片幻灯片

图 7 本文算法所发现模体的准确率

下载: 全尺寸图片幻灯片

表 1 符号说明

符号名称	含义
w	某不确定数据流
w´	滑动窗口的期望长度
a	滑动窗口的实际长度
m	置信概率
m	U中最新元组的索引值
$W(U,w)$	针对U的长度为w的滑动窗口
$\hat{W}(U,w)$	$W(U,w)$的子窗口
$\|\hat{W}(U,w)\|$	$\hat{W}(U,w)$中存在的元组数目

下载: 导出CSV

表 2 常用的分界点值及所需字符集的数目

$\beta _{i}^{\alpha }$	3	4	5	6	7	8	9	10
${{\beta }_{1}}$	-0.43	-0.67	-0.84	-0.97	-1.07	-1.15	-1.22	-1.28
${{\beta }_{2}}$	0.43	0	-0.25	-0.43	-0.57	-0.67	-0.76	-0.84
${{\beta }_{3}}$		0.67	0.25	0	-0.18	-0.32	-0.43	-0.52
${{\beta }_{4}}$			0.84	0.43	0.18	0	-0.14	-0.25
${{\beta }_{5}}$				0.97	0.57	0.32	0.14	0
${{\beta }_{6}}$					1.07	0.67	0.43	0.25
${{\beta }_{7}}$						1.15	0.76	0.52
${{\beta }_{8}}$							1.22	0.84
${{\beta }_{0}}$								1.28

下载: 导出CSV

表 3 部分规范化不确定数据流示例

时间	规范化后的距离值	存在概率
t₁	0.24675	0.5
t₂	0.12222	0.9
t₃	1.10982	0
t₄	-0.7056	0.6
$\vdots $	$\vdots $	$\vdots $

下载: 导出CSV

表 4 ${{{S}'}_{1}},{{{S}'}_{2}},{{{S}'}_{3}}$符号化结果

编号	上述三条综合指标序列所对应的字符串
seq1	CCCCAGTGCCGGCGGCCCCCCCGGAGGCCCGGGGGGCCGGCGACAAACGG
seq2	TTCCCCCTGCGAAGCCGGACCTAGGCGGCCGGGTCGCGCTACTCGCGTCG
seq3	CGCCCGGCCGGGAGGGCGGCGCGCGGCGCCGCACCCGGCCCGGCCGCCCC

下载: 导出CSV

表 5 算法准确率比较

算法	数据集
算法	数据集1	数据集2	数据集3
MK	0.87	0.85	0.82
MOEN	0.90	0.86	0.85
本文算法	0.91	0.89	0.88

下载: 导出CSV

[1]	梁春泉. 不确定数据流分类算法研究[D]. 西安:西北农林科技大学, 2014. http://cn.bing.com/academic/profile?id=abdfdb48dde46c8057972be9be946bd0&encoded=0&v=paper_preview&mkt=zh-cn LIANG Chun-quan. Classification algorithm based on uncertain data stream[D]. Xi'an:Northwest Agriculture and Forestry University, 2014. http://cn.bing.com/academic/profile?id=abdfdb48dde46c8057972be9be946bd0&encoded=0&v=paper_preview&mkt=zh-cn
[2]	THANH T L T, PENG L P, DIAO Y L, et al. CLARO:Modeling and processing uncertain data streams[J]. VLDB Journal, 2012, 21:651-676. doi: 10.1007/s00778-011-0261-7
[3]	JIN C Q, JEFFREY X Y, ZHOU A Y, et al. Efficient clustering of uncertain data streams[J]. Knowl Inf Syst, 2014, 40:509-539. doi: 10.1007/s10115-013-0657-3
[4]	朱跃龙, 彭力, 李士进, 等. 水文时间序列模体挖掘[J]. 水利学报, 2012, 43(12):1422-1430. http://www.cnki.com.cn/Article/CJFDTOTAL-SLXB201212007.htm ZHU Yue-long, PENG Li, LI Shi-jin, et al. Research on hydrological time series mining[J]. Hydraulic Engineering, 2012, 43(12):1422-1430. http://www.cnki.com.cn/Article/CJFDTOTAL-SLXB201212007.htm
[5]	PUNEET A, GAUTAM S, SARMIMALA S, et al. Efficiently discovering frequent motifs in large-scale sensor data[EB/OL].[2015-06-30]. https://www.researchgate.net/publication/270454309_Efficiently_Discovering_Frequent_Motifs_in_Large-scale_Sensor_Data.
[6]	邹力鹍, 张其善. 基于多最小支持度的加权关联规则挖掘算法[J]. 北京航空航天大学学报, 2007, 33(5):590-593. http://www.cnki.com.cn/Article/CJFDTOTAL-BJHK200705020.htm ZOU Li-pu, ZHANG Qi-shan. Algorithm of weighted association rules mining with multiple minimum supports[J]. Beijing University of Aeronautics and Astronautics Technology, 2007, 33(5):590-593. http://www.cnki.com.cn/Article/CJFDTOTAL-BJHK200705020.htm
[7]	张懿璞, 霍红卫, 于强, 等. 用于转录因子结合位点识别的定位投影求精算法[J]. 计算机学报, 2013, 36(12):2545-2559. http://www.cnki.com.cn/Article/CJFDTOTAL-JSJX201312015.htm ZHANG Yi-pu, HUO Hong-wei, YU Qiang, et al. A novel fixed-position projection refinement algorithm for TFBS Identification[J]. Journal of Computers, 2013, 36(12):2545-2559. http://www.cnki.com.cn/Article/CJFDTOTAL-JSJX201312015.htm
[8]	TIMOTHY L B. Dreme:Motif discovery in transcription factor ChIP-seq data[J]. Original Paper, 2011, 17(12):1653-1659. http://cn.bing.com/academic/profile?id=1711bf89a73a2521ce6940c978692280&encoded=0&v=paper_preview&mkt=zh-cn
[9]	DANIEL Q, XIE X H. Extreme:an online EM algorithm for motif discovery[J]. Original Paper, 2014, 30(12):1667-1673. http://cn.bing.com/academic/profile?id=e398b43a11bd9a86c4418d3ef756b20b&encoded=0&v=paper_preview&mkt=zh-cn
[10]	李明, 张维明. 不确定数据流多维建模方法[J]. 国防科技大学学报, 2014, 36(5):174-179. http://www.cnki.com.cn/Article/CJFDTOTAL-GFKJ201405029.htm LI Ming, ZHANG Wei-ming. Multi-dimensional modeling method of uncertain data stream[J]. Journal of the National Defense University, 2014, 36(5):174-179. http://www.cnki.com.cn/Article/CJFDTOTAL-GFKJ201405029.htm
[11]	MICHELE D. Modeling and querying data series and data streams with uncertainty[D]. The Autonomous Province of Trento:Universita` degli Studi di Trento, 2014,
[12]	HONG Y. On computing the distribution function for the sum of independent and non-identical random indicators[EB/OL].[2015-10-10]. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.220.8708. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.220.8708&rep=rep1&type=pdf
[13]	曲文龙, 张克君, 杨炳儒, 等. 基于奇异事件特征聚类的时间序列符号化方法[J]. 系统工程与电子技术, 2006, 28(8):1131-1134. http://www.cnki.com.cn/Article/CJFDTOTAL-XTYD200608004.htm QU Wen-long, ZHANG Ke-jun, YANG Bing-ru, et al. Time series symbolization based on singular event feature clustering[J]. Systems Engineering and Electronics, 2006, 28(8):1131-1134. http://www.cnki.com.cn/Article/CJFDTOTAL-XTYD200608004.htm
[14]	LIN J, KENOGH E J, WEI D L, et al. Experiencing SAX:a novel symbolic representation of time series[J]. Data Min Knowl Disc, 2007, 15:107-144. doi: 10.1007/s10618-007-0064-z
[15]	MUEEN A, KEOGH E J, ZHU Q, et al. Exact discovery of time series motif[C]//Society for Industrial and Applied Mathematics Conf. on Data Mining.[S.l.]:Springer, 2009.
[16]	ABDULLAH M, NIKAN C. Enumeration of time series motifs of all lengths[J]. Knowl Inf Syst, 2015, 45:105-132. doi: 10.1007/s10115-014-0793-4

[1]	肖婧, 邹雨承, 吴双, 许小可. 基于模体的模块度优化高阶社区检测算法 . 电子科技大学学报, 2023, 52(4): 631-640. doi: 10.12178/1001-0548.2022111
[2]	黄土地, 刘宇, 李彦锋, 柏松, 黄洪钟. 考虑认知不确定性的风力发电机维护决策优化 . 电子科技大学学报, 2023, 52(2): 306-312. doi: 10.12178/1001-0548.2021299
[3]	鲁华祥, 尹世远, 龚国良, 刘毅, 陈刚. 基于深度确定性策略梯度的粒子群算法 . 电子科技大学学报, 2021, 50(2): 199-206. doi: 10.12178/1001-0548.2020420
[4]	肖宁聪, 周成宁, 张成林, 刘志亮. 混合不确定性下的结构可靠性分析方法 . 电子科技大学学报, 2018, 47(5): 788-792. doi: 10.3969/j.issn.1001-0548.2018.05.024
[5]	孙美美, 胡云安, 韦建明. 一种新型不确定分数阶混沌系统滑模同步控制方式 . 电子科技大学学报, 2017, 46(3): 555-561. doi: 10.3969/j.issn.1001-0548.2017.03.013
[6]	谢暄, 高乐, 吕珏, 李西峰, 谢三山, 谢永乐. 测量不确定度估计的极限费舍尔信息方法 . 电子科技大学学报, 2016, 45(5): 778-784. doi: 10.3969/j.issn.1001-0548.2016.05.012
[7]	刘霞, 陈勇. 一类具有多种不确定性机器人系统的自适应控制 . 电子科技大学学报, 2015, 44(1): 61-66. doi: 10.3969/j.issn.1001-0548.2015.01.010
[8]	汤承林, 练岚香, 刘俊. 基于代数方法的一类不确定系统的滑模观测器设计 . 电子科技大学学报, 2015, 44(6): 876-880. doi: 10.3969/j.issn.1001-0548.2015.06.014
[9]	汪方斌, 洪津, 孙晓兵, 宋茂新, 孙斌, 王羿. 航空多角度偏振辐射计信噪比不确定性数学模型 . 电子科技大学学报, 2014, 43(6): 869-873. doi: 10.3969/j.issn.1001-0548.2014.06.013
[10]	汪颖, 杨达, 肖先勇, 杨景岗. 个人电脑电压暂降失效事件组合不确定性评估 . 电子科技大学学报, 2013, 42(5): 700-704. doi: 10.3969/j.issn.1001-0548.2013.05.011
[11]	潘永平, 黄道平, 孙宗海. 不确定非线性系统高精度自适应模糊控制 . 电子科技大学学报, 2012, 41(1): 54-59. doi: 10.3969/j.issn.1001-0548.2012.01.011
[12]	刘霞, 黄琦, 陈勇. 一类不确定遥操作系统的混杂控制 . 电子科技大学学报, 2012, 41(5): 723-728. doi: 10.3969/j.issn.1001-0548.2012.05.016
[13]	乔少杰, 彭京, 李天瑞, 朱焱, 刘良旭. 基于CTBN的移动对象不确定轨迹预测算法 . 电子科技大学学报, 2012, 41(5): 759-763. doi: 10.3969/j.issn.1001-0548.2012.05.022
[14]	杜丽, 肖宁聪, 黄洪钟, 何俐萍, 李海庆. 认知不确定性的谐波齿轮减速器可靠性分析研究 . 电子科技大学学报, 2011, 40(3): 470-475. doi: 10.3969/j.issn.1001-0548.2011.03.028
[15]	谢永强, 陈建军, 朱增青. 不确定系统响应上下界分析的改进仿射算法 . 电子科技大学学报, 2011, 40(4): 634-640. doi: 10.3969/j.issn.1001-0548.2011.03.033
[16]	班志杰, 古志民, 金瑜. 基于滑动窗口的自适应网页预测模型 . 电子科技大学学报, 2009, 38(2): 249-252. doi: 10.3969/j.issn.1001-0548.2009.02.22
[17]	余凌凌, 唐小我, 马永开. 需求不确定下三度价格歧视模型及算法 . 电子科技大学学报, 2004, 33(3): 319-321.
[18]	丁志强. 基于对象数据流图的可复用方案 . 电子科技大学学报, 1999, 28(3): 306-310.
[19]	王宏霞. 不确定的时滞线性系统的稳定性分析 . 电子科技大学学报, 1998, 27(6): 656-661.
[20]	桑楠, 龚天富, 陈文宇. CASE-DDB的设计和不确定性问题的解决 . 电子科技大学学报, 1997, 26(2): 185-189.

点击查看大图

图(7) / 表(5)

计量

文章访问数: 4142
HTML全文浏览量: 1265
PDF下载量: 68
被引次数: 0

全文HTML

随着信息化时代的到来，通信、传感器和计算机等技术发展迅猛，使得各类测量数据急剧膨胀，催生出一个发展广阔且军事意义重大的应用研究领域——数据流分析。作为一个连续到达的数据序列，与传统时间序列相比，数据流具有无界性、高速性等显著特点^[1]。携带有不完整、不精确信息的数据流被称为不确定数据流，它在无线传感器网络、互联网、战场态势等领域有极大的应用需求^[2-3]。目前，有关不确定数据流的研究主要包括聚类、查询和分类等方面，而关于不确定数据流内隐含的关系、规则及模式等知识挖掘方面则很少提及^[4-6]。

本文借鉴生物信息学中序列模式发现思想，研究不确定数据流中功能或行为相似的流段(模体)，用于分析或预测产生数据流的实体行为。为了发现不确定数据流在不同时刻滑动窗口下的模体，实现对不确定数据流的预测、规则挖掘、分类和异常检测，设计了基于MEME的不确定数据流模体发现算法，在传统时间序列模体发现的基础上，增加了处理不确定性和动态性的功能。

1. MEME算法

在生物信息学中，模体发现的近似算法主要分为两类：一类是基于启发式或贪心技术的算法，主要有WEEDER、VINE、Pattern Branching算法等；另一类是基于统计技术的算法，主要有EM、MEME、吉布斯采样以及HMM算法等。

MEME算法^[7-9]是目前最流行的符号序列集合模体发现算法，它可将模体从由背景成分和模体成分组成的混合符号序列中辨识出来。对于由符号序列${{S}_{i}}={{s}_{i1}}{{s}_{i2}}\cdots {{s}_{iL}}$$(i=1,2,\cdots ,t)$组成的符号序列集合$S=\{{{S}_{1}},{{S}_{2}},\cdots ,{{S}_{t}}\}$而言，用$l-\text{mer}$表示一个长度为l的碱基片段，即$l-\text{mer}={{s}_{i,j+1}}{{s}_{i,j+2}}\cdots {{s}_{i,j+l}}$。MEME算法就是从符号序列集合中识别出重复出现的$l-\text{mer}$。

MEME算法的核心是定义了一个二元随机变量${{Z}_{ij}}(j=1,\ 2,\cdots ,{{L}_{i}})$，通过计算每一个$l-\text{mer}$的似然值来寻找模体，具体见文献^[5]和文献^[7]。其中，${{Z}_{ij}}$表示每一个$l-\text{mer}$对应的背景成分或模体成分，即当字符${{s}_{ij}}$表示为一个结合位点时，${{Z}_{ij}}=1$，否则${{Z}_{ij}}=0$。该算法将整个序列集合的似然值表示为：

$$\log (p(X,Z|{{\theta }_{0}},\Theta ))=\sum\limits_{i=1}^{t}{\sum\limits_{j=1}^{{{L}_{i}}-l+1}{{{Z}_{ij}}}}\times \log p({{X}_{ij}}|{{Z}_{ij}},{{\theta }_{0}},\Theta )$$

(1)

式中，${{X}_{ij}}$表示第i行第j个$l-\text{mer}$；${{\theta }_{0}}$表示背景分布(此处采用零阶马尔科夫模型，即假设字符各自独立的分布)；$\Theta =({{\theta }_{1k}},\cdots ,{{\theta }_{wk}},\cdots ,{{\theta }_{lk}})\text{ }(k\in \Omega )$表示模体分布；${{\theta }_{wk}}$表示字符k在模体第w个位置出现的概率。期望最大化算法正是通过更新潜在的隐变量Z使得似然值最大化，主要过程分为E步和M步。

E步可以表示为：

$$Z_{ij}^{(T)}=\frac{p(X\left| {{Z}_{ij}},{{\Theta }^{(T)}} \right.)}{\sum\limits_{{{L}_{i}}-l+1}{p(X\left| {{Z}_{ij}},{{\Theta }^{(T)}} \right.)}}$$

(2)

M步可以表示为：

$${{\Theta }^{(T+1)}}=\arg \max \text{E}[\log p(X,Z\left| {{\Theta }^{(T)}} \right.)]$$

(3)

E步和M步重复执行多次直至收敛。此外，通过描述位点如何分布，MEME又将概率模型细分为OOPS、ZOOPS和TCM这3类。OOPS模型表示每条序列中有且只有一个模体出现，这是模体发现问题最基本的假设；ZOOPS模型表示每条序列中含有一个或零个模体；TCM模型允许一条序列中有零或多个模体出现。

4. 结束语

本文在传统时间序列模体发现的基础上加入了不确定性和动态性，建立起了序列数据挖掘和不确定数据流挖掘之间的桥梁，并采用生物信息学算法完成了对不确定数据流的模体发现。

1) 提出了基于MEME的不确定数据流模体发现算法，根据防空反导传感器网络对距离的实时测量数据进行模体发现，验证了其可行性；

2) 通过多次模体植入实验和算法性能对比实验，验证了本文算法的有效性。仿真分析表明，在同等仿真条件下，本文算法优于MK和MOEN算法；

3) 该文部分内容属于探索性的研究，相关理论和研究可以对不确定数据流的模体发现提供理论和应用支撑；

4) 本文所建立的不确定数据流是基于离散属性值，对具有连续属性的不确定数据流进行模体发现是本文下一步的研究内容。

参考文献 (16)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

一种面向不确定数据流的模体发现算法

doi: 10.3969/j.issn.1001-0548.2017.01.013

作者简介:
王菊(1991-),女,博士生,主要从事数据挖掘方面的研究

New Motif Discovery Algorithm for Uncertain Data Stream

计量

一种面向不确定数据流的模体发现算法

doi: 10.3969/j.issn.1001-0548.2017.01.013

1. 空军工程大学防空反导学院西安 710051

2. 93527部队河北张家口 075000

3. 93787部队北京丰台区 100076

作者简介:
王菊(1991-),女,博士生,主要从事数据挖掘方面的研究

English Abstract

New Motif Discovery Algorithm for Uncertain Data Stream

1. Air and Missile Defense College, Air Force Engineering University Xi'an 710051

2. 93527 Military Unit Zhangjiakou Heibei 075000

3. 93787 Military Unit Fengtai Beijing 100076

全文HTML

2.1. 不确定滑动窗口定义及简化计算

2.1.1. 不确定滑动窗口的定义

2.1.2. 不确定滑动窗口的简化计算方法

2.2. 改进的SAX符号化策略

2.3. 算法设计

3.1. 实例验证

3.2. 实验分析

目录

期刊在线

编辑办公

友情链接

留言板

一种面向不确定数据流的模体发现算法

doi: 10.3969/j.issn.1001-0548.2017.01.013

作者简介: 王菊(1991-),女,博士生,主要从事数据挖掘方面的研究

New Motif Discovery Algorithm for Uncertain Data Stream

计量

出版历程

一种面向不确定数据流的模体发现算法

doi: 10.3969/j.issn.1001-0548.2017.01.013

1. 空军工程大学防空反导学院 西安 710051 2. 93527部队 河北 张家口 075000 3. 93787部队 北京 丰台区 100076

作者简介: 王菊(1991-),女,博士生,主要从事数据挖掘方面的研究

English Abstract

New Motif Discovery Algorithm for Uncertain Data Stream

1. Air and Missile Defense College, Air Force Engineering University Xi'an 710051 2. 93527 Military Unit Zhangjiakou Heibei 075000 3. 93787 Military Unit Fengtai Beijing 100076

全文HTML

2.1. 不确定滑动窗口定义及简化计算

2.1.1. 不确定滑动窗口的定义

2.1.2. 不确定滑动窗口的简化计算方法

2.2. 改进的SAX符号化策略

2.3. 算法设计

3.1. 实例验证

3.2. 实验分析

目录

期刊在线

编辑办公

友情链接

作者简介:
王菊(1991-),女,博士生,主要从事数据挖掘方面的研究

1. 空军工程大学防空反导学院西安 710051

2. 93527部队河北张家口 075000

3. 93787部队北京丰台区 100076

作者简介:
王菊(1991-),女,博士生,主要从事数据挖掘方面的研究

1. Air and Missile Defense College, Air Force Engineering University Xi'an 710051

2. 93527 Military Unit Zhangjiakou Heibei 075000

3. 93787 Military Unit Fengtai Beijing 100076