-
博客、微博、微信等自媒体产生了海量数据,并加速了信息传播,特别是对突发事件及重大事件的传播产生了重要影响。关注突发事件及重大事件的网络传播规律及网民行为关系,有助于舆论的正面引导,维护社会稳定。因为此类数据大多数以海量不确定数据来呈现,所以进行深度的数据挖掘和分析难度较大。本文提出在海量微博数据上进行不确定性数据挖掘和分析,进而构建微博用户行为网络,来实现更深入的数据价值获取。
文献[1]通过复杂网络及网络动力学理论分析Twitter用户关系网络特性中的可行性,并完成了Twitter用户关系网络基本参数的计算。文献[2]通过对新浪微博用户关系网络的研究,发现了该网络是典型的复杂网络,具有小世界、无标度和高聚类的特性。文献[3]认为新浪微博网络结构满足幂律分布。
Rough Set理论是一种处理不确定性信息的基础理论。基于Rough Set的认知挖掘是当前的研究热点。文献[4]描述了社会网络与粒计算的关系。文献[5]提出一种动态维护近似W.R.T对象的方法,并添加属性到粗糙集决策理论的框架中。文献[6]使用粗糙集和粒计算等相关技术对社会网络进行了建模。文献[7]使用粗糙集解决社交网络中的分类和聚类问题。文献[8]使用模糊集,对海量社交网络数据进行情绪分析,并使用facebook进行了验证。文献[9]使用模糊综合评价方法对CPM算法进行改进,对微博主题进行发现。
本文拟采用Rough Set理论,对微博的主题和用户情绪进行动态认知,进而构建微博用户行为关系网络,得出微博事件发展演化的路径。
-
本文使用Rough Set理论来分析用户在微博事件中的主题意向、操作和情感等因素来获取对用户行为关系网络的认知,从而更好地处理信息模糊化难题。
对于一个属性分类集合K=(U, R),其中任意的属性子集X$\subseteq $U和分类等价关系R∈ind(K)可以获得两个Rough Set基础子集:
$$ {R_*}(X) = \{ x \in U:{[x]_R} \subseteq X\} $$ (1) $$ {R^*}(X) = \{ x \in U:{[x]_R} \cap X \ne \emptyset \} $$ (2) 上面形成的posR(X)=R*(X)可以认为是由属性X获得核心域,而R*(X)=posR∪bnR(X)则是属性X获得的可支持域,因此可得bnR(X)=R(X)-R*(X)是X的边界域。其中核心域R*(X)表示可以从属性X中获得的关于K所有的精确认识,而R*(X)表示可以从属性X关于K所有信息,包括不确定性信息。
在上近似集和下近似集合之间的元素是由于通过等价关系R并不能完全地确定其在子集X之中。对于这些元素可以称为X的R边界集,记为:
$$ {\rm{B}}{{\rm{N}}_R}(X) = {R^*}(X)-{R_*}(X) $$ (3) 定义 1 对于论域U,等价关系簇P中如果存在一个等价关系簇Q,且满足:
$$ Q \subseteq P $$ (4) $$ {\rm{IND}}(Q) = {\rm{IND}}(P) $$ (5) 定义 2 对于论域U不同的等价关系簇P和Q,称下式所求解为等价关系簇Q相对P的正域:
$$ {\rm{PO}}{{\rm{S}}_P}(Q) = \bigcup\limits_{X \in U/R} {{P_-}(X)} $$ (6) 定义 3 对于论域U不同的等价关系簇P和Q,如果等价关系簇P中存在等价关系r满足:
$$ {\rm{PO}}{{\rm{S}}_P}(Q) = {\rm{PO}}{{\rm{S}}_{P\backslash \{ r\} }}(Q) $$ (7) 则称等价关系r为等价关系簇P中相对于等价关系Q中可以约简的;反之则是不可约简的。
时间顺序是观察事件发展的重要维度,故本文提出动态特征分析方法来构建属性。该方法将在每个属性上一个时间窗口,统计该窗口的内属性的变化率进而进行分析。
设论域U= {x1, x2, …, xn},其中存在属性域C= {c1, c2, …, cm},即对于每一个粒子可采用m个属性值来进行描述。不同的属性组合形成知识Rk,依据知识Rk可以对当前的粒层形成凝聚,知识Rk之间所存在的蕴含关系可以对应生成相应的粒结构。
对于给定的论域U上,存在决策系统S,等价关系簇D为决策属性集,等价关系簇P为条件属性集。那么,SGF(ri, P, D)是条件属性ri在等价关系簇P的条件属性的重要度:
$$ {\rm{SGF}}({r_i}, P, D) = \frac{{{\rm{card}}({\rm{PO}}{{\rm{S}}_{P \cup \{ {r_i}\} }}(D))-{\rm{card}}({\rm{PO}}{{\rm{S}}_P}(D))}}{{{\rm{card}}({\rm{POS}}(D))}} $$ (8) I(ri, D)是条件属性ri相对于决策等价关系簇D的互信息熵:
$$ I({r_i}, D) = H(D)-H(D|\{ {r_i}\} ) $$ (9) 从属性重要度和互信息熵的定义中可以看出,SGF(ri, P, D)越大,条件属性ri所提供分类的信息量就越大,所获得粒度越大。
动态属性认知可以定义为:设有决策信息系统S=〈U, C∪D, V, f〉,有属性等价关系簇R和属性等价关系簇C,且R$\subset $C。对于已获属性取值的样本R(xp),R相对于C的补集Rc中属性aj的动态属性认知为:
$$ {\rm{si}}{{\rm{g}}_l}({a_j}|R({x_p})) = \frac{{{\rm{card}}({\rm{PO}}{{\rm{S}}_{U/\{ {a_j}\} |R({x_p})}}(D))}}{{{\rm{card}}({\rm{PO}}{{\rm{S}}_{U/\{ R({x_p})\} }}(D))}}{\rm{ }}{a_j} \in {R^c} $$ (10) 式中,对于aj∈Rc属性而言,条件属性aj提供了动态属性认知。基于上述属性认知可以获得对应的粒层分析,形成相关的粒层用于智能分类等应用。
利用上述模型可以计算所提取每一个用户行为属性对整体事件的影响情况,进而获得每个用户在网络行为中的重要性,从而实现对网络行为关系的构建。
A Method to Construct Weibo User Behavior Relationship Network Using Dynamic Cognitioin
-
摘要: 构建微博用户的社会关系网络是分析微博数据的重要基础手段之一。由于微博用户在信息的发布和传播过程中具有不确定的行为特性,导致常见方法无法有效地完成微博用户行为关系网络的建模。该文以不确定理论为基础,提出了基于Rough Set的动态认知技术,对微博的海量不完备信息进行处理,完成对用户行为的计算分析,构建了微博用户行为关系网络。并以此为基础,结合用户操作、主题与情感分析方法,对微博中的网络事件发展进行了分析。Abstract: To construct the social network of Micro-blog users has become one of the most important method to analyze micro-blog data. However, due to the uncertainty of the behavior of users in the process of information release and dissemination, it is hard to construct effectively the social network of Micro-blog users. Based on the uncertainty theory, the paper proposes a rough set based dynamic cognitive technology to handle the incomplete and massive information of micro-blog, complete the calculation and analysis of behavior of users, and construct the social network of Micro-blog users. On this basis, the development of network events in micro-blog is analyzed combined with the method with operation, theme and emotion analysis.
-
Key words:
- dynamic cognition /
- theme detection /
- user behavior relationship network /
-
[1] TEUTLE A R M. Twitter: Network properties analysis[C]//Electronics, Communications and Computer. Cholula: IEEE, 2010: 180-186. [2] KANG S, ZHANG C, LIN Z, et al. Complexity research of massively microblogging based on human behaviors[C]//Database Technology and Applications. Dalian, China: IEEE, 2010: 1-4. [3] FAN P, LI P, JIANG Z, et al. Measurement and analysis of topology and information propagation on Sina-Microblog[C]//Intelligence and Security Informatics. Beijing, China: IEEE, 2011: 396-401. [4] LIAU C J. Social networks and granular computing[J]. Encyclopedia of Complexity and Systems Science, 2009(1):8333-8345. doi: 10.1007%2F978-3-642-27737-5_495-5.pdf [5] CHEN H, LI T, LUO C, et al. A decision-theoretic rough set approach for dynamic data mining[J]. IEEE Transactions on Fuzzy Systems, 2015, 23(6):1958-1970. doi: 10.1109/TFUZZ.2014.2387877 [6] YAGER R R. Intelligent social network modeling and analysis[C]//Intelligent System and Knowledge Engineering. Xiamen, China: IEEE, 2008, 1: 5-6. [7] MITRA A, SATAPATHY S R, PAUL S. Clustering analysis in social network using covering based rough set[C]//Advance Computing Conference. [S. l. ]: IEEE, 2013, 8628: 476-481. [8] MUKKAMALA R R, HUSSAIN A, VATRAPU R. Fuzzy-set based sentiment analysis of big social data[C]//Enterprise Distributed Object Computing Conference. [S. l. ]: IEEE, 2014, 1: 71-80. [9] CHEN Xiao-lei, CHEN Xiang, CHENG Yi-jie. Community structure discovery and community topic analysis in microblog[C]//International Conference on Information Management, Innovation Management and Industrial Engineering. Xi'an, China: IEEE, 2013, 1: 590-595. [10] 孙青云, 王俊峰, 赵宗渠, 等.一种基于模拟登录的微博数据采集方案[J].计算机技术与发展, 2014, 24(3):6-10. http://d.wanfangdata.com.cn/Thesis/Y2448242 SUN Qing-yun, WANG Jun-feng, ZHAO Zong-qu, et al. A microblog data collection method based on simulated login technology[J]. Computer Technology and Development, 2014, 24(3):6-10 http://d.wanfangdata.com.cn/Thesis/Y2448242 [11] DEERWESTER S, DUMAIS S T, FURNAS G W, et al. Indexing by latent semantic analysis[J]. Journal of the American Society for Information Science, 1990, 41(6):391. doi: 10.1002/(ISSN)1097-4571 [12] XU Ge, WANG Hou-feng. The development of topic model in natural language processing[J]. Chinese Journal of Computers, 2011, 34(8):1423-1436. doi: 10.3724/SP.J.1016.2011.01423 [13] HU Y, ZHAO J, WU J, et al. On exploring ambivalent expression in Weibo[C]//Service Systems and Service Management. Guangzhou, China: IEEE, 2015: 1-6. [14] ZHOU J, ZHAO Y, ZHANG H, et al. Measuring emotion bifurcation points for individuals in social media[C]//System Sciences. Kauai, Hawaii: IEEE, 2016: 1949-1958.