留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于动态认知的微博用户行为关系网络构建方法

赫熙煦 陈雷霆 张民 孙青云

赫熙煦, 陈雷霆, 张民, 孙青云. 基于动态认知的微博用户行为关系网络构建方法[J]. 电子科技大学学报, 2018, 47(2): 262-266. doi: 10.3969/j.issn.1001-0548.2018.02.016
引用本文: 赫熙煦, 陈雷霆, 张民, 孙青云. 基于动态认知的微博用户行为关系网络构建方法[J]. 电子科技大学学报, 2018, 47(2): 262-266. doi: 10.3969/j.issn.1001-0548.2018.02.016
HE Xi-xu, CHEN Lei-ting, ZHANG Min, SUN Qing-yun. A Method to Construct Weibo User Behavior Relationship Network Using Dynamic Cognitioin[J]. Journal of University of Electronic Science and Technology of China, 2018, 47(2): 262-266. doi: 10.3969/j.issn.1001-0548.2018.02.016
Citation: HE Xi-xu, CHEN Lei-ting, ZHANG Min, SUN Qing-yun. A Method to Construct Weibo User Behavior Relationship Network Using Dynamic Cognitioin[J]. Journal of University of Electronic Science and Technology of China, 2018, 47(2): 262-266. doi: 10.3969/j.issn.1001-0548.2018.02.016

基于动态认知的微博用户行为关系网络构建方法

doi: 10.3969/j.issn.1001-0548.2018.02.016
详细信息
    作者简介:

    赫熙煦(1982-), 男, 高级工程师, 主要从事计算机网络、高性能计算和数据挖掘方面的研究

  • 中图分类号: TP391.41

A Method to Construct Weibo User Behavior Relationship Network Using Dynamic Cognitioin

图(5)
计量
  • 文章访问数:  4175
  • HTML全文浏览量:  1302
  • PDF下载量:  247
  • 被引次数: 0
出版历程
  • 收稿日期:  2016-12-24
  • 修回日期:  2017-12-19
  • 刊出日期:  2018-03-30

基于动态认知的微博用户行为关系网络构建方法

doi: 10.3969/j.issn.1001-0548.2018.02.016
    作者简介:

    赫熙煦(1982-), 男, 高级工程师, 主要从事计算机网络、高性能计算和数据挖掘方面的研究

  • 中图分类号: TP391.41

摘要: 构建微博用户的社会关系网络是分析微博数据的重要基础手段之一。由于微博用户在信息的发布和传播过程中具有不确定的行为特性,导致常见方法无法有效地完成微博用户行为关系网络的建模。该文以不确定理论为基础,提出了基于Rough Set的动态认知技术,对微博的海量不完备信息进行处理,完成对用户行为的计算分析,构建了微博用户行为关系网络。并以此为基础,结合用户操作、主题与情感分析方法,对微博中的网络事件发展进行了分析。

English Abstract

赫熙煦, 陈雷霆, 张民, 孙青云. 基于动态认知的微博用户行为关系网络构建方法[J]. 电子科技大学学报, 2018, 47(2): 262-266. doi: 10.3969/j.issn.1001-0548.2018.02.016
引用本文: 赫熙煦, 陈雷霆, 张民, 孙青云. 基于动态认知的微博用户行为关系网络构建方法[J]. 电子科技大学学报, 2018, 47(2): 262-266. doi: 10.3969/j.issn.1001-0548.2018.02.016
HE Xi-xu, CHEN Lei-ting, ZHANG Min, SUN Qing-yun. A Method to Construct Weibo User Behavior Relationship Network Using Dynamic Cognitioin[J]. Journal of University of Electronic Science and Technology of China, 2018, 47(2): 262-266. doi: 10.3969/j.issn.1001-0548.2018.02.016
Citation: HE Xi-xu, CHEN Lei-ting, ZHANG Min, SUN Qing-yun. A Method to Construct Weibo User Behavior Relationship Network Using Dynamic Cognitioin[J]. Journal of University of Electronic Science and Technology of China, 2018, 47(2): 262-266. doi: 10.3969/j.issn.1001-0548.2018.02.016
  • 博客、微博、微信等自媒体产生了海量数据,并加速了信息传播,特别是对突发事件及重大事件的传播产生了重要影响。关注突发事件及重大事件的网络传播规律及网民行为关系,有助于舆论的正面引导,维护社会稳定。因为此类数据大多数以海量不确定数据来呈现,所以进行深度的数据挖掘和分析难度较大。本文提出在海量微博数据上进行不确定性数据挖掘和分析,进而构建微博用户行为网络,来实现更深入的数据价值获取。

    文献[1]通过复杂网络及网络动力学理论分析Twitter用户关系网络特性中的可行性,并完成了Twitter用户关系网络基本参数的计算。文献[2]通过对新浪微博用户关系网络的研究,发现了该网络是典型的复杂网络,具有小世界、无标度和高聚类的特性。文献[3]认为新浪微博网络结构满足幂律分布。

    Rough Set理论是一种处理不确定性信息的基础理论。基于Rough Set的认知挖掘是当前的研究热点。文献[4]描述了社会网络与粒计算的关系。文献[5]提出一种动态维护近似W.R.T对象的方法,并添加属性到粗糙集决策理论的框架中。文献[6]使用粗糙集和粒计算等相关技术对社会网络进行了建模。文献[7]使用粗糙集解决社交网络中的分类和聚类问题。文献[8]使用模糊集,对海量社交网络数据进行情绪分析,并使用facebook进行了验证。文献[9]使用模糊综合评价方法对CPM算法进行改进,对微博主题进行发现。

    本文拟采用Rough Set理论,对微博的主题和用户情绪进行动态认知,进而构建微博用户行为关系网络,得出微博事件发展演化的路径。

    • 行为关系网络是一种Web社会网络,它是描述用户行为关系的抽象网络。微博事件演化过程在行为关系网络中,以时间顺序进行表达。本文以新浪微博用户作为研究对象,选择发布、评论、转发和回复4种操作方式进行研究,构建了某一网络事件中微博用户之间形成的行为关系网络。

      网络事件的演化是用户行为相互影响作用的结果。用户的行为特征在一定程度上反映了用户的活跃程度、理性程度和兴趣模型。通过主题跟踪,可以将同一话题相关的事件按照时间顺序关联起来,同时监控事件发展的空间(用户行为)变化。

      因此,本文使用事件监测算法对互联网内特定的用户群数据进行分析处理,形成事件关联网络发展脉络;将已识别的事件进行训练后得到微博事态发展模型,收集后续相关事件进行时间和空间的关联分析,最终形成如图 1所示的行为关系网络。

      图  1  用户行为关系网络示意图

      本文中微博数据采集采用了文献[10]中所提出的基于模拟登录的数据采集方案。数据采集过程如图 2所示。

      图  2  微博数据采集过程

    • 认知用户行为需要对用户参与微博事件的过程中,所进行的操作类型、发表的内容及包含情绪等信息进行建模分析,形成用户行为的动态认知。依据该动态认知构建用户行为关系网络,完成对事态发展的监测和预判。

      本文采用主题模型(topic model)对用户发表的内容和包含的情绪进行提取。它是源于隐性语义索引(latent semantic indexing, LSI)[11-12],被广泛应用于主题挖掘、文本检索、文本分类、引文分析和社交网络分析等领域。

      本文使用提取关键字等方法,对主题进行识别。广告性质的短语和一些微博没有评论内容会从待分析数据中被剔除。对微博进行主题分析之前,还需要对其进行分词处理。此外,还在分词库中添加了一些常用的网络用语,以提高分词的准确性。在分词基础上,增加了停用词去除的代码,将对主题无影响的停用词从词库中去除,以提高主题分析的效率和准确性。其流程如图 3所示。

      图  3  微博主题检测流程图

      在某个热点事件发生之后,互联网用户能够通过微博迅速获取事件信息,并进行反馈和传播。文献[13]通过对微博情感表达的研究,提出一种方法描述微博中正、负和矛盾的情感。文献[14]通过复杂系统理论处理在线个人情感,并探讨了微博背后的情感表达机制。

      本文提出的方法能够自动分析微博数据中用户帖子所包含的情感倾向,监测用户群整体的情感变化趋势。首先,抽取事件中所包含的不同方面的关注点;然后,检测不同关注点相关的帖子中所包含的用户情感信息;接着,统计用户群对各个关注点的情感变化趋势。

      以极性词典为基础,对情感极性进行判断。本文实验使用知网提供的正面、负面情感词及评价词词典。在微博的评论信息中,增加了一些流行的网络用语。情感词典中包含4 495个正极性词汇和4 376个负极性词汇。

    • 本文使用Rough Set理论来分析用户在微博事件中的主题意向、操作和情感等因素来获取对用户行为关系网络的认知,从而更好地处理信息模糊化难题。

      对于一个属性分类集合K=(U, R),其中任意的属性子集X$\subseteq $U和分类等价关系R∈ind(K)可以获得两个Rough Set基础子集:

      $$ {R_*}(X) = \{ x \in U:{[x]_R} \subseteq X\} $$ (1)
      $$ {R^*}(X) = \{ x \in U:{[x]_R} \cap X \ne \emptyset \} $$ (2)

      上面形成的posR(X)=R*(X)可以认为是由属性X获得核心域,而R*(X)=posR∪bnR(X)则是属性X获得的可支持域,因此可得bnR(X)=R(X)-R*(X)是X的边界域。其中核心域R*(X)表示可以从属性X中获得的关于K所有的精确认识,而R*(X)表示可以从属性X关于K所有信息,包括不确定性信息。

      在上近似集和下近似集合之间的元素是由于通过等价关系R并不能完全地确定其在子集X之中。对于这些元素可以称为XR边界集,记为:

      $$ {\rm{B}}{{\rm{N}}_R}(X) = {R^*}(X)-{R_*}(X) $$ (3)

      定义 1 对于论域U,等价关系簇P中如果存在一个等价关系簇Q,且满足:

      $$ Q \subseteq P $$ (4)
      $$ {\rm{IND}}(Q) = {\rm{IND}}(P) $$ (5)

      定义 2 对于论域U不同的等价关系簇PQ,称下式所求解为等价关系簇Q相对P的正域:

      $$ {\rm{PO}}{{\rm{S}}_P}(Q) = \bigcup\limits_{X \in U/R} {{P_-}(X)} $$ (6)

      定义 3 对于论域U不同的等价关系簇PQ,如果等价关系簇P中存在等价关系r满足:

      $$ {\rm{PO}}{{\rm{S}}_P}(Q) = {\rm{PO}}{{\rm{S}}_{P\backslash \{ r\} }}(Q) $$ (7)

      则称等价关系r为等价关系簇P中相对于等价关系Q中可以约简的;反之则是不可约简的。

      时间顺序是观察事件发展的重要维度,故本文提出动态特征分析方法来构建属性。该方法将在每个属性上一个时间窗口,统计该窗口的内属性的变化率进而进行分析。

      设论域U= {x1, x2, …, xn},其中存在属性域C= {c1, c2, …, cm},即对于每一个粒子可采用m个属性值来进行描述。不同的属性组合形成知识Rk,依据知识Rk可以对当前的粒层形成凝聚,知识Rk之间所存在的蕴含关系可以对应生成相应的粒结构。

      对于给定的论域U上,存在决策系统S,等价关系簇D为决策属性集,等价关系簇P为条件属性集。那么,SGF(ri, P, D)是条件属性ri在等价关系簇P的条件属性的重要度:

      $$ {\rm{SGF}}({r_i}, P, D) = \frac{{{\rm{card}}({\rm{PO}}{{\rm{S}}_{P \cup \{ {r_i}\} }}(D))-{\rm{card}}({\rm{PO}}{{\rm{S}}_P}(D))}}{{{\rm{card}}({\rm{POS}}(D))}} $$ (8)

      I(ri, D)是条件属性ri相对于决策等价关系簇D的互信息熵:

      $$ I({r_i}, D) = H(D)-H(D|\{ {r_i}\} ) $$ (9)

      从属性重要度和互信息熵的定义中可以看出,SGF(ri, P, D)越大,条件属性ri所提供分类的信息量就越大,所获得粒度越大。

      动态属性认知可以定义为:设有决策信息系统S=〈U, CD, V, f〉,有属性等价关系簇R和属性等价关系簇C,且R$\subset $C。对于已获属性取值的样本R(xp),R相对于C的补集Rc中属性aj的动态属性认知为:

      $$ {\rm{si}}{{\rm{g}}_l}({a_j}|R({x_p})) = \frac{{{\rm{card}}({\rm{PO}}{{\rm{S}}_{U/\{ {a_j}\} |R({x_p})}}(D))}}{{{\rm{card}}({\rm{PO}}{{\rm{S}}_{U/\{ R({x_p})\} }}(D))}}{\rm{ }}{a_j} \in {R^c} $$ (10)

      式中,对于ajRc属性而言,条件属性aj提供了动态属性认知。基于上述属性认知可以获得对应的粒层分析,形成相关的粒层用于智能分类等应用。

      利用上述模型可以计算所提取每一个用户行为属性对整体事件的影响情况,进而获得每个用户在网络行为中的重要性,从而实现对网络行为关系的构建。

    • 以“招商银行济南招聘”事件为例,进行微博用户操作、主题意向和情绪分析,从而构建用户行为关系网络。本文采用模拟登录方法,在2012年12月15日~2013年1月7日期间,获取到30 196条有效记录,包含14 569位微博用户。

      通过分析,得到如图 4所示的用户操作统计。

      图  4  招商银行济南招聘事件全过程用户操作统计

      图 4中,可以发现用户对源微博和衍生微博的评论次数大于转发数量,说明大多数用户在社会网络构建的过程中,有强烈的意愿来发表自己的意见,使得事件在很短的时间内形成较大的规模。

      通过本文提出的动态认知方法,构建了如图 5所示的行为关系网络。

      图  5  招商银行济南招聘事件行为关系网络示意图

      用户行为关系网络图中结点按照出现的时间顺序进行编号。从中可以看出一些用户的操作特点,如对源微博多是进行评论,从这些用户结点的编号可以看出出现的时间顺序分布比较均匀。该现象说明随着评论的增加,用户会对和自己观点一致的衍生微博进行转发和评论,尤其是该微博的粉丝和出现时间接近的用户;对于回复的操作,该图中只出现了4个用户。一般来说回复操作是若干个用户对衍生微博中观点的讨论,甚至是争论。其中,正向情感1 512人次,负面情绪2 386人次,中性情绪11 003人次。

    • 本文通过对微博网络事件的分析和研究,针对微博用户特性动态建模,形成动态认知,依据用户动态认知来形成关系网络,发掘网络事件发展和传播的潜在规律,实现用户行为关系网络建模的目标。本文所提出的方法对网络舆情的了解和网络事件发展的预判提供了一定的参考。

参考文献 (14)

目录

    /

    返回文章
    返回