留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于动态情境感知的W5模型研究

王峰 李石君

王峰, 李石君. 基于动态情境感知的W5模型研究[J]. 电子科技大学学报, 2016, 45(3): 429-435. doi: 10.3969/j.issn.1001-0548.2016.02.020
引用本文: 王峰, 李石君. 基于动态情境感知的W5模型研究[J]. 电子科技大学学报, 2016, 45(3): 429-435. doi: 10.3969/j.issn.1001-0548.2016.02.020
WANG Feng, LI Shi-jun. Research of W5 Model Based on Dynamic Context Awareness[J]. Journal of University of Electronic Science and Technology of China, 2016, 45(3): 429-435. doi: 10.3969/j.issn.1001-0548.2016.02.020
Citation: WANG Feng, LI Shi-jun. Research of W5 Model Based on Dynamic Context Awareness[J]. Journal of University of Electronic Science and Technology of China, 2016, 45(3): 429-435. doi: 10.3969/j.issn.1001-0548.2016.02.020

基于动态情境感知的W5模型研究

doi: 10.3969/j.issn.1001-0548.2016.02.020
基金项目: 

国家自然科学基金 61272109

详细信息
    作者简介:

    王峰(1900-),男,博士生,主要从事移动互联网和用户行为挖掘方面的研究

  • 中图分类号: TP391

Research of W5 Model Based on Dynamic Context Awareness

  • 摘要: Twitter、Sina Micro-blog等社交网络应用为基于位置的服务提供了大量的情境信息,如用户ID(who)、签到时间(when)、GPS坐标(where)、微博内容主题词(what)和微博内容诱因词(why)等,简称5W。它们为用户的行为和偏好研究提供了契机。该文提出了基于5W动态情境感知信息的W5概率模型,并采用包含情境信息的联合概率分布分别从时间、空间和活动等方面挖掘用户动态行为,用于用户和位置的预测。该文实验基于两个数据集:Geo-text(GT)和Sina-tweets(ST),在数据集上进行了用户预测(UP)和位置预测(LP)实验。实验结果表明,W5模型在UP和LP两方面准确率均高于W4模型。同时,W5模型在时间误差和空间距离误差两方面也取得了较好的性能。
  • 图  1  W5模型要素生成图

    图  2  K 对 Lacc 、 Dis 和 Aet 上的影响

    图  3  f 对 W5 模型在 LAcc , Dis 和 Aet 上的影响

    图  4  le 对 W5 模型在 Lacc/Dis 上的影响

    表  1  W5模型:情境要素与数据的映射

    情境要素数据提取数据形式
    用户(u)用户资料与注册信息用户ID、用户名、年龄等
    时间(t)签到时间、登入登出时间等日、周、年、是否节假日等
    位置(l)GPS坐标,POI信息区域,距离等
    事件(e)微博中提取事件主题微博文本内容
    诱因(w)微博中提取诱因并分级微博文本内容
    下载: 导出CSV

    表  2  用户数与标注微博数的映射

    用户编号微博数
    120 000
    220 000
    320 000
    420 000
    下载: 导出CSV

    表  3  用户关系与ρ值计算结果

    用户关系ρ
    1,20.701
    1,30.782
    1,40.736
    2,30.821
    2,40.681
    3,40.768
    下载: 导出CSV

    表  4  实验数据集

    数据集数据项数目数据描述
    Geo-textuser ID9 481用户数
    check-in time377 616签到时间
    GPS坐标对54 325位置信息
    tweets377 616微博数
    Sina-tweetsuser ID20 106用户数
    check-in time197 627签到时间
    GPS坐标对61 563位置信息
    tweets199 508微博数
    下载: 导出CSV

    表  5  W4 与 W5 用户位置预测精确度比较

    AccGeo-textSina-tweets
    W40.592 10.287 3
    W50.614 30.306 1
    下载: 导出CSV

    表  6  W4 与 W5 用户预测精确度比较

    AccGeo-textSina-tweets
    W40.299 10.145 3
    W50.325 20.175 2
    下载: 导出CSV
  • [1] GREGORY D A, ANIND K D, PETER J B, et al. Towards a better understanding of context and cotext-awareness[J]. Handheld and Ubiquitous Computing, 2000(1707):304-307.
    [2] MARMASSE N, SCHMANDT C. Location-aware information delivery with commotion[J]. Handheld and Ubiquitous Computing, 2000(1927):157-171.
    [3] CHO E, SETH A, MYER, et al. Friendship and mobility:User movement in location-based social networks[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD). San Diego, USA:ACM, 2011:1082-1090.
    [4] SIBREN I, RICHARD A B, RAMÓN C, et al. Identifying important places in peoples lives from cellular network data[J]. Pervasive Computing, 2011(6696):133-151.
    [5] WANG J, ZENG C, HE C, et al. Context-aware role mining for mobile service recommendation[C]//Annual ACM Symposium Applied Computing. New York, USA:ACM, 2012:173-178.
    [6] 陈恩红, 徐童, 田继雷, 等. 移动情境感知的个性化推荐技术[J]. 中国计算机学会通讯, 2013, 9(3):18-24.

    CHEN En-hong, XU Tong, TIAN Ji-lei, et al. Personalization recommendation technique of mobile context-awareness[J]. Communication of China Computer Federation, 2013, 9(3):18-24.
    [7] QUAN Yuan, GAO Cong, MA Zong-yang, et al. Who, where, when and what:Discover spatiotemporal topics for twitter users[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD). Chicago, USA:ACM, 2013:605-613.
    [8] HONG Liang-jie, AMR A, SIVA G, et al. Discovering geographical topics in the twitter stream[C]//International Conference on World Wide Web (WWW). New York, USA:ACM, 2012:769-778.
    [9] COHEN J. A coefficient of agreement for nominal scales[J]. Educational and Psychological Measurement, 1960, 20(1):37-46.
    [10] COHEN J. Weighted kappa:Nominal scale agreement with provision for scaled disagreement or partial credit[J]. Psychological Bulletin, 1968, 70(4):213-220.
    [11] 王峰, 余伟, 李石君. 基于PMR架构的兴趣点推荐研究[J]. 中国科学:信息科学, 2015, 45(11):1503-1520.

    WANG Feng, YU Wei, LI Shi-jun. Research of POI-s recommendation based on PMR framework[J]. Science China:Information Science, 2015, 45(11):1503-1520.
  • [1] 王曦, 许爽, 许小可.  融合用户行为同步指标的链路预测研究 . 电子科技大学学报, 2021, 50(2): 276-284. doi: 10.12178/1001-0548.2020241
    [2] 张林兵, 郭强, 吴行斌, 梁耀洲, 刘建国.  基于多维行为分析的用户聚类方法研究 . 电子科技大学学报, 2020, 49(2): 315-320. doi: 10.12178/1001-0548.2018212
    [3] 陶晓玲, 孔凯传, 赵峰, 赵培超.  基于LSTM的内部用户安全行为评估方法 . 电子科技大学学报, 2019, 48(5): 779-785. doi: 10.3969/j.issn.1001-0548.2019.05.019
    [4] 蒋伟雄, 曾令李, 秦键, 刘华生, 沈辉, 王维.  利用动态功能连接对健康危险性行为特征的预测 . 电子科技大学学报, 2018, 47(6): 927-931. doi: 10.3969/j.issn.1001-0548.2018.06.020
    [5] 赫熙煦, 陈雷霆, 张民, 孙青云.  基于动态认知的微博用户行为关系网络构建方法 . 电子科技大学学报, 2018, 47(2): 262-266. doi: 10.3969/j.issn.1001-0548.2018.02.016
    [6] 丁哲, 秦臻, 郑文韬, 秦志光.  基于移动用户浏览行为的推荐模型 . 电子科技大学学报, 2017, 46(6): 907-912. doi: 10.3969/j.issn.1001-0548.2017.06.020
    [7] 牛新征, 牛嘉郡, 苏大壮, 佘堃.  基于FP-Tree模型的频繁轨迹模式挖掘方法 . 电子科技大学学报, 2016, 45(1): 86-90. doi: 10.3969/j.issn.1001-0548.2016.01.014
    [8] 徐雅斌, 石伟杰.  微博用户推荐模型的研究 . 电子科技大学学报, 2015, 44(2): 254-259. doi: 10.3969/j.issn.1001-0548.2015.02.016
    [9] 刘晶, 王峰, 胡亚慧, 李石君.  基于微博行为数据的不活跃用户探测 . 电子科技大学学报, 2015, 44(3): 410-414. doi: 10.3969/j.issn.1001-0548.2015.03.016
    [10] 宋竹, 秦志光, 罗嘉庆, 张悦涵.  电信数据中用户行为特征测量与分析 . 电子科技大学学报, 2015, 44(6): 934-939. doi: 10.3969/j.issn.1001-0548.2015.06.024
    [11] 王丹琛, 张仕斌, 徐扬, 许宁.  基于业务用户行为的计算机动态取证评估模型研究 . 电子科技大学学报, 2015, 44(6): 921-927. doi: 10.3969/j.issn.1001-0548.2015.06.022
    [12] 闫强, 吴联仁, 郑兰.  微博社区中用户行为特征及其机理研究 . 电子科技大学学报, 2013, 42(3): 328-333. doi: 10.3969/j.issn.1001-0548.2013.03.002
    [13] 罗光春, 狄翠霞, 李炯.  新型用户访问模式挖掘方法研究 . 电子科技大学学报, 2012, 41(1): 70-73. doi: 10.3969/j.issn.1001-0548.2012.01.014
    [14] 王华东, 鲍景富, 何松柏.  修正Volterra级数的功放行为模型 . 电子科技大学学报, 2010, 39(3): 368-371. doi: 10.3969/j.issn.1001-0548.2010.03.009
    [15] 李刚俊, 陈松明.  精密谐波传动系统的动态模型研究 . 电子科技大学学报, 2010, 39(5): 742-746,773. doi: 10.3969/j.issn.1001-0548.2010.05.020
    [16] 童彬, 秦志光, 贾伟峰, 宋健伟.  采用数据挖掘的拒绝服务攻击防御模型 . 电子科技大学学报, 2008, 37(4): 586-589.
    [17] 李成安, 吴铁军.  基于移动代理的层次优化挖掘模型 . 电子科技大学学报, 2007, 36(2): 281-284.
    [18] 骆志刚, 谭浩, 刘锦德.  一个实时CORBA的动态调度服务模型 . 电子科技大学学报, 2001, 30(6): 618-624.
    [19] 艾兴政, 唐小我, 曾勇.  动态需求下高峰负荷定价模型研究 . 电子科技大学学报, 1999, 28(6): 635-641.
    [20] 何为.  8-羟基喹啉-5-磺酰肼的电化学行为 . 电子科技大学学报, 1997, 26(6): 654-656.
  • 加载中
图(4) / 表(6)
计量
  • 文章访问数:  4585
  • HTML全文浏览量:  1200
  • PDF下载量:  394
  • 被引次数: 0
出版历程
  • 收稿日期:  2014-12-24
  • 修回日期:  2015-09-30
  • 刊出日期:  2016-01-25

基于动态情境感知的W5模型研究

doi: 10.3969/j.issn.1001-0548.2016.02.020
    基金项目:

    国家自然科学基金 61272109

    作者简介:

    王峰(1900-),男,博士生,主要从事移动互联网和用户行为挖掘方面的研究

  • 中图分类号: TP391

摘要: Twitter、Sina Micro-blog等社交网络应用为基于位置的服务提供了大量的情境信息,如用户ID(who)、签到时间(when)、GPS坐标(where)、微博内容主题词(what)和微博内容诱因词(why)等,简称5W。它们为用户的行为和偏好研究提供了契机。该文提出了基于5W动态情境感知信息的W5概率模型,并采用包含情境信息的联合概率分布分别从时间、空间和活动等方面挖掘用户动态行为,用于用户和位置的预测。该文实验基于两个数据集:Geo-text(GT)和Sina-tweets(ST),在数据集上进行了用户预测(UP)和位置预测(LP)实验。实验结果表明,W5模型在UP和LP两方面准确率均高于W4模型。同时,W5模型在时间误差和空间距离误差两方面也取得了较好的性能。

English Abstract

王峰, 李石君. 基于动态情境感知的W5模型研究[J]. 电子科技大学学报, 2016, 45(3): 429-435. doi: 10.3969/j.issn.1001-0548.2016.02.020
引用本文: 王峰, 李石君. 基于动态情境感知的W5模型研究[J]. 电子科技大学学报, 2016, 45(3): 429-435. doi: 10.3969/j.issn.1001-0548.2016.02.020
WANG Feng, LI Shi-jun. Research of W5 Model Based on Dynamic Context Awareness[J]. Journal of University of Electronic Science and Technology of China, 2016, 45(3): 429-435. doi: 10.3969/j.issn.1001-0548.2016.02.020
Citation: WANG Feng, LI Shi-jun. Research of W5 Model Based on Dynamic Context Awareness[J]. Journal of University of Electronic Science and Technology of China, 2016, 45(3): 429-435. doi: 10.3969/j.issn.1001-0548.2016.02.020
  • 微博是一种通过Twitter等社交网络平台发布短文本信息的服务,文本信息以140个字为上限,其中包含大量情境信息,如签到时间(check-in time)、位置(GPS坐标)、人物(用户ID、昵称等)、事件(微博文本内容)等[1-5]。如何有效地组织和利用这些情境信息为用户服务是目前国内外研究的热门且有挑战性的课题[6-7]。情境就是生活中的场景,如小明中午12点在食堂吃饭就是场景(情境),其中包含人物、时间、位置等信息。现实场景通过情境建模被人们所理解的过程就是“情境感知”。基于“情境感知”,信息提供者可为用户提供更精确的信息过滤和消息推送服务。建立情境感知模型的目的在于提取用户的行为信息,通过分析其特征达到预测用户将来行为的目的。其中,最新且具代表性的W4模型[7]就是利用Twitter用户信息分析其历史行为特征的典型情境模型。分析要素包括用户(who)、时间(when)、位置(where)和事件(what)4个方面。该模型从中任意抽取3种信息就能较精确地推断出第4种。但不足是通过该模型建立的情境是静态情境,它不仅切断上下情境间的连续性,而且无法了解情境发生的诱因。换言之,该模型只能推断用户当前情境(Sn)在做什么,无法推断用户下一情境(Sn+1)做什么的概率(P(Sn+1|Sn)),并且无法解释上一情境(Sn-1)为什么会导致当前情境Sn,而不是另一情境 ${S'_n}$ ,同样也无法解释为什么是情境Sn而不是 ${S'_n}$ 导致了Sn+1的发生。鉴于上述两点不足,本文提出W5模型来弥补, W5模型是在W4模型的基础上加入情境诱因(why)信息。优势在于通过分析用户的历史信息,在给定时间和位置的条件下,通过诱因信息不但能推断用户当前时刻在做什么,而且可以推断用户下一时刻有可能去哪里和做什么。这样就把W4模型建立的离散静态情境变成W5模型建立的连续动态情境。事实上,现实生活中用户行为本就是连续变化的动态过程,W5模型研究更贴近于用户的真实行为。

    • “情境”在城市计算中直观体现为4个维度[7]:用户who(u)、时间when(t)、位置where(l)和事件what(e),因此可建立四元组构造向量空间 ${\bf{\alpha }} = {(u,t,l,e)^T}$ ,这就是基于静态情境感知的W4模型。由引言论述可知,W4模型的情境信息不能恰当地解释上下文情境间的关联关系,为解决该模型的不足,引入连接上下文情境的纽带—诱因。通过分析可知,W4模型由于缺少诱因why的度量,导致上下文情境关联断层和连续性缺失。因此本文在W4模型基础上加入诱因why,建立向量空间 ${\bf{\beta }} = {(u,t,l,e,w)^T}$ ,将W4模型扩展为基于动态情境的W5模型,把离散情境片段串联为连续性整体,进而提高用户行为活动的预测精确度。静态情境被比作生活场景的每帧电影画面,那么动态情境就是由每帧画面串起来的电影。值得说明的是,通过提取微博内容中的要素建立情境时,每种要素均对应一类信息库(如事件库和诱因库)。

    • 定义 1 诱因(incentive):促使情境迁移而导致静态情境中的要素发生改变的诱导性因素。诱因是一个集合 $w = \{ {w_1},{w_2},\cdots ,{w_n}\} $ ,其中n为诱因数。文中要素特指W5模型的5个情境因素。情境迁移是由当前情境Sn流向下一情境Sn+1的过程。诱因导致用户who发生改变,表明它导致用户更替完成了情境迁移;诱因导致时间when发生改变,表明它导致约定时间更替完成情境迁移。类推可解释诱因导致其他因素发生情境迁移的合理性。因而得出诱因导致诱因发生变化的可能性也是合理的,因为此刻诱因导致诱因发生,形成了迭代诱因的情境迁移,同样也证明了诱因定义及其限定范围的合理性。

      定义 2 静态情境(static context):无诱因驱使下,用户u在时间t、位置l从事事件e的情境。

      定义 3 动态情境(dynamic context):相对静态情境, ${t_n} \to {t_{n{\rm{ + 1}}}}$ 时刻,如果情境在诱因驱使下发生 ${S_n} \to {S_{n{\rm{ + 1}}}}$ 的迁移,那么这种情境就是动态情境。用户针对各种诱因存在主观的重要性分级,根据重要程度从高到低进行情境迁移,依次完成各项活动。虽然随着时间的变化,用户对诱因重要程度的认识可能会发生变化,但已超出本文研究内容。因此,本文假设用户对诱因重要程度的认识不随时间变化,故此定义诱因优先级。

      定义 4 诱因优先级(incentive order):指诱因的重要程度,它是对诱因优先次序的描述。诱因优先级用诱因因子度量,它由上下文事件的优先级决定。设上下文事件优先级分别为IOn和IOn+1 (假设介于 0~10 之间),那么诱因因子可用 $f = {\textstyle{{{\rm{I}}{{\rm{O}}_{n + 1}}} \over {{\rm{I}}{{\rm{O}}_n}}}}$ 计算。

    • who、when、where、what、why是组成动态情境的5个必要因素。它们在数据集中的直观体现是:用户ID(user ID)区分不同用户或用户组,表示为 $u = {({u_1},{u_2},\cdots ,{u_n})^T}$ ,n=1时,表示单用户或用户组;签到时间(check-in time)为用户产生行为的时间,时间序列集合为 $t = {({t_1},{t_2},\cdots ,{t_n})^T}$ ;GPS信息(GPS messages)为用户产生行为的位置,用户的位置信息集合是一组成对的经纬度集合 $l = {({l_0},{l_1},{l_2},\cdots ,{l_i})^T}$ ,其中 $l = {({l_0},{l_1},{l_2},\cdots ,{l_i})^T}$ , ${l_{i,0}}$ 表示纬度序列, ${l_{i,1}}$ 表示经度序列, $\{ {l_{i,0}},{l_{i,1}}\} $ 表示一组GPS经纬度坐标位置信息, $i = 1,2,\cdots ,n$ ;微博(tweets)为用户行为的具体内容,假设用户的一条微博只有一个主题或只叙述一件事,那么事件集合表示为 $e = {({e_1},{e_2},\cdots ,{e_n})^T}$ ;微博上下文关系(context of tweets)为用户行为的因果联系,以此为基础,建立诱因集合 $w = {({w_1},{w_2},{w_3},\cdots ,{w_n})^T}$ 。把5个集合组合起来,构成了W5动态情境感知模型的直观表述: ${\rm{W}}5 = {(u,t,l,e,w)^T}$ 。

    • W5模型包括5个情境要素,它们与数据间的映射关系如表 1所示,而它们生成W5模型的过程如图 1所示。图中实线和虚线分别表示显式和隐式要素。显式要素指可从数据集中直接获取的要素,包括用户u、时间t和位置l;隐式要素指只能通过数据集的数据项间接生成和反映的要素,包括事件e和诱因w;箭头末端标明该要素类型,实线箭头末端为显式要素,虚线箭头末端为隐式要素。

      表 1  W5模型:情境要素与数据的映射

      情境要素数据提取数据形式
      用户(u)用户资料与注册信息用户ID、用户名、年龄等
      时间(t)签到时间、登入登出时间等日、周、年、是否节假日等
      位置(l)GPS坐标,POI信息区域,距离等
      事件(e)微博中提取事件主题微博文本内容
      诱因(w)微博中提取诱因并分级微博文本内容

      图  1  W5模型要素生成图

      以用户或用户组(u)为起点,以概率形式p(u)表示用户占用户集的概率;u指向t,生成要素流 $u \to t$ 并写出其概率形式 $p(t|u)$ ,表示某用户或用户组u在时间t的概率;u指向l,生成要素流 $u \to l$ 并写出其概率形式 $p(l|u)$ ,表示某用户或用户组(u)在位置l的概率;从t指向l,生成要素流 $u \to l \to t$ 并写出其联合概率形式 $p(l|u,t)$ 或 $p(t|u,l)$ ,表示u在时间t出现在位置lu在位置l出现时其时间为t的概率;同理,可以此规律生成要素流 $u \to t \to e$ , $u \to t \to l \to e$ 和 $u \to t \to l \to e \to w$ 等,并写出联合概率形式 $p(e|u,t)$ , $p(e|u,t,l)$ 和 $p(w|u,t,l,e)$ 等,最终形成联合概率:

      $$\eqalign{ & p(u,l,t,e,w) = \cr & p(u)p(t|u)p(l|u,t)p(e|u,t,l)p(w|u,t,l,e) \cr} $$ (1)

      由于用户信息在数据集中仅作为用户标识,因此式(1)中凡是涉及u的概率均可简化或消去,从而简化式(1)为:

      $$p(t,l,e,w) = p(t)p(l|t)p(e|t,l)p(w|t,l,e)$$ (2)

      为在用户活动区域内计算位置l的概率,利用式(3)通过区域内的GPS坐标对来解决这个问题[11],有:

      $$p(l|t) = \sqrt {{{\exp ( - {1 \over 2}(l_{i,0}^2 + l_{i,1}^2)) - \exp ( - {1 \over 2}(l_{i',0}^2 + l_{i',1}^2))} \over {\exp ( - {1 \over 2}(l_{i,0}^2 + l_{i,1}^2)) + \exp ( - {1 \over 2}(l_{i',0}^2 + l_{i',1}^2))}}} $$ (3)

      式中,为位置 $({l_{i,0}},{l_{i,1}})$ 和 $({l_{i',0}},{l_{i',1}})$ 的GPS坐标对,进一步写出联合概率为:

      $$p(t,l) = p(t)p(l|t)$$ (4)

      式中,p(t)可从数据集中的签到时间直接获取,然后统计各用户在时间段t内的频次以计算其分布概率。而解决事件e和诱因w的联合概率需要对微博内容进行处理,因此借鉴文本相似度评分的思想找出那些诱因意图显著的微博,采用式(5)和式(6)计算解决,有:

      $$p(e) = \sum\limits_{i = 1}^n {({Y_i} + \sum\limits_{j = 1}^m {{Z_{ij}}{w_{ij}}{)^2}} } $$ (5)

      式中,Yi表示微博中针对第i个子句的评分;Z用于统计评论中第i个子句中第j个词汇的词频;W表示微博中第i个子句中第j个词汇的得分权重。从而写出联合概率为:

      $$p(w|e) = fp(w) + p(e)$$ (6)

      式中,f为诱因因子;p(w)为用户u对诱因的概率,通过实验中用户标记获取,标记为l表明用户对诱因关注,为0表明用户对诱因忽略。结合式(5)和式(6),可写出联合概率为:

      $$p(e,w) = p(w|e)p(e)$$ (7)

      而进一步结合式(4)和式(7)、式(4)和式(5),并赋予权重12(一般取0.5),可写出联合概率为:

      $$p(t,l,e,w) = {\lambda _1}p(t,l) + (1 - {\lambda _1})p(e,w)$$ (8)
      $$p(t,l,e) = {\lambda _2}p(t,l) + (1 - {\lambda _2})p(e)$$ (9)

      再结合式(1)、式(8)和式(9)就可以计算出 $p(w|t,l,e)$ 。

      为了进行预测,文中引入N阶Markov状态空间 $\left\{ {{X_1}} \right.,{X_2},\cdots ,\left. {{X_{n + 1}}} \right\}$ ,其中假设当前情境的联合概率分布 ${X_n} = p({t_n},{l_n},{e_n},{w_n})$ ,那么根据N阶Markov的计算式(10),结合用户的历史情境 $\{ {X_1},{X_2},\cdots ,{X_{n - 1}}\} $ ,预测出用户的下一情境 ${X_{n + 1}} = p({t_{n + 1}},{l_{n + 1}},{e_{n + 1}},{w_{n + 1}})$ 。

      $$\eqalign{ & P({X_{n + 1}}|{X_n}) = \int {P({X_{n + 1}},{X_n}|{X_{n - 1}})} {\rm{d}}{X_n} = \cr & \int {P({X_{n + 1}}|{X_n})} P({X_n}|{X_{n - 1}}){\rm{d}}{X_n} \cr} $$ (10)

      再结合式(10)与式(1)对式(1)~式(9)进行逆运算就可预测出用户下一情境的行为活动。

      由于诱因优先级来源于用户的主观认识,为计算实验中的诱因因子fp(w),必需采用人工众包标注的方法获取诱因优先级数据,用户与标注微博数的映射关系如表 2所示。表中所示为随机选取的4个用户对含有诱因优先级的微博数的标注。用户关系与ρ值的计算结果如表 3所示,用户关系1,2表示用户1与用户2之间的ρ值计算关系。对标注结果采用科恩卡帕系数(Cohen’s kappa)[9-10]进行一致性评测,其计算方法为:

      $$\rho = {{\Pr (a) - \Pr (e)} \over {1 - \Pr (e)}}$$ (11)

      表 2  用户数与标注微博数的映射

      用户编号微博数
      120 000
      220 000
      320 000
      420 000

      表 3  用户关系与ρ值计算结果

      用户关系ρ
      1,20.701
      1,30.782
      1,40.736
      2,30.821
      2,40.681
      3,40.768

      可以看出绝大部分ρ值均介于0.6~0.8之间,ρ(2,3)=0.821介于0.8~1之间。由于 $\rho \in (0.6,0.8]$ 达到适中一致性, $\rho \in (0.8,1]$ 达到完美一致性,因此可以认为4个用户的评价具有专业性和准确性。事件的获取方法[7]参考事件提取的思想和方法,即从每条微博中提取若干主题关键词来表示事件维。文中不再做详细的介绍。

    • 本章将对本文提出的W5模型,以位置预测为例进行评估。

      文中的实验采用两个数据集,其中Geo-text为公用数据集,Sina-tweets是利用Sina API 从Sina Micro-blog上爬取的2012年12月1日~2013年7月31日的20多万条数据,各数据集所包含的详细内容如表 4所示。表中的数据集都经过了预处理,剩下的都是每天至少有5个访问位置的活跃用户。对于每个数据集按照8∶2的比例构成训练集和测试集。实验在配置为Window 2008 Server的平台上进行,服务器配置为8核CPU,32GB内存。在提取微博内容时发现,诱因和事件二者虽然均属于微博文本中有价值的信息,但通过提取诱因建立诱因库的数据仅来源于训练数据集迁移情境Sn+1所包含的各种要素,而提取微博事件内容建立事件库却同时来源于包含Sn+1Sn+1两类情境的所有要素。由此可以看出,诱因库来源于迁移新情境Sn+1的各要素,它是事件库的子集。

      表 4  实验数据集

      数据集数据项数目数据描述
      Geo-textuser ID9 481用户数
      check-in time377 616签到时间
      GPS坐标对54 325位置信息
      tweets377 616微博数
      Sina-tweetsuser ID20 106用户数
      check-in time197 627签到时间
      GPS坐标对61 563位置信息
      tweets199 508微博数
    • 为了评估不同模型的性能,实验采用位置预测精度、平均误差时间和平均误差距离3条准则来进行评估。

      位置预测精度(Lacc):W5模型预测的位置与用户实际位置相符,则预测正确。预测正确的位置数与预测位置总数的比值就是位置预测精度。

      平均误差时间(Aet):情境预测发生时间Tsp与实际发生时间Tst差值,即 ${\rm{Aet}} = {\textstyle{{\sum\limits_{i = 1}^n {|{T_{{\rm{sp}}}}(i) - {T_{{\rm{st}}}}(i)|} } \over n}}$ ,其中n表示情境个数,i表示情境中的时间ID。即使情境预测的位置正确,但预测时间却也可能与情境发生的实际时间存在差异,这就需要用情境的平均误差时间来评估预测精度。

      平均误差距离(Dis):情境预测发生位置Lsp与实际位置Lst虽然大致位置接近,但由于GPS仪器测量时存在固有误差而引起预测位置与实际存在差异,因此实验采用平均误差距离度量这种差异,即 ${\rm{Dis}} = {{\sum\limits_{j = 1}^n {|{L_{{\rm{sp}}}}(j) - {L_{{\rm{st}}}}(j)|} } \over n}$ ,其中n表示情境个数,j表示情境中的位置ID。值得注意的是,位置预测精度、平均误差时间和平均误差距离3种评估标准存在差异。理想情况要求实验结果具有更高的位置预测精度、更小平均误差时间和更短平均误差距离。

    • W4模型为目前性能最好的方法,因此把它与W5模型的性能评估形成对比试验。

      W4 (who+where+when+what):该模型基于W3加入了时间因素[7-8],但仍旧无法建立情境之间的关联,被视为静态情境。

      W5 (who+where+when+what+why):该模型由于在W4之上加入了诱因,从而使上下文情境之间建立了关联,使静态情境成为动态情境。

    • 实验中存在3个可供调节参数,它们是微博主题数K、诱因因子f、位置误差le。它们的初始默认值根据多次实验经验可分别设置为50个、0.5和30m。位置误差是以用户实际位置中心点的GPS坐标为圆心、位置误差le为半径的圆形区域,位置预测所得到的所有GPS坐标落在圆形区域之内,则预测结果正确;否则预测错误。位置误差客观存在,由GPS坐标定位的固有误差造成的,因此在一定误差范围内是实验允许的。

    • 本节给出了参数Kf和le分别对W4模型和W5模型影响的实验结果。图 2K对W4和W5模型在Lacc、Dis和Aet方面造成影响的对比实验。实验所采用的数据集为Geo-text和Sina-tweets。

      图  2  K 对 Lacc 、 Dis 和 Aet 上的影响

      图 2a中可看出,K在数据集Geo-text上的位置精确度明显要高于Sina-tweets,因为Geo-text比Sina-tweets测试集中所含的数据噪声低,预处理过程更加完善,数据集更小。而在两个数据集中的实验结果一致表明,W5模型的精度在K=60时最高,在Geo-text和Sina-tweets上分别为0.3252和0.1752,均略高于W4模型的0.2991和0.1453,精度提高约8.7%和20.6%。从图 2b中可看出,K在Geo-text上的预测误差距离要明显低于Sina-tweets ,并且随着K值的增加,它对Geo-text的影响程度比Sina-tweets低,原因可能在于Geo-text中被选取作为测试集的语料库对提及位置语料的频次高于Sina-tweets,因而导致Geo-text预测的平均误差距离更小,虽然随着K值的增加,语料中的提及位置的频次在增加,但同时GPS坐标个数也同时在增加,在Sina-tweets中由于位置频次的增加速度不及GPS坐标个数,因而导致了K对Sina-tweets在Dis上的影响更加显著。而在两个数据集中,W5模型在Sina-tweets和Geo-text中,当K为60和20时,Dis分别为95和25.5 ,为最低。并且二者都略低于W4模型中的120和35。图 2c中随着K值的增加导致Aet逐渐增大,而Geo-text较Sina-tweets更加稳定,其原因是主题数的增加导致了情境个数的增加,但同时也导致了数据集中无意义主题的增加,严重影响了情境预测的效率,Sina-tweets中无意义的主题多于Geo-text。

      图 3显示了f对W5模型在Lacc,Dis和Aet方面的影响。图 3a中,随着f的增加,Lacc的预测精度逐渐提高。当f在Sina-tweets和Geo-text中分别介于4~8和4~7之间时,精度变化率增大,其原因是当f介于此区间时,用户或用户组迁移行为更加频繁,反映了情境预测的准确率也不断提高;图 3b中,随着f的增大Dis逐渐减小。当f介于1~5之间时,Dis急剧减小,表明随着f的增大Lacc增大必然会导致Dis的减小;图 3c中,f增大导致Aet减小,表明f介于1~5之间时,用户或用户组对f的反馈更加灵敏。由于不同数据集上用户对f的差异性,从而导致了Geo-text和Sina-tweets下实验结果的不同。

      图  3  f 对 W5 模型在 LAcc , Dis 和 Aet 上的影响

      图 4a可以看出,le对于Lacc预测精度的提升并不明显;图 4b中,随着le的增加Dis逐渐增大,表明由于GPS坐标误差的固有属性引起了错误的Dis,而试图通过扩大le的方法把错误的Dis划分为正确的思路只会导致Dis的进一步偏离。

      图  4  le 对 W5 模型在 Lacc/Dis 上的影响

      上文实验是以位置预测为例进行的。位置预测的目的是预测给定用户在给定时间段内最有可能出现的位置。测试集中把用户ID、时间段作为输入,如果预测位置与实际位置相符则预测正确,否则预测错误。文中把W5与W4模型的最佳精确度分别在数据集Geo-text和Sina-tweets上进行了比较,比较结果如表 5所示。

      表 5  W4 与 W5 用户位置预测精确度比较

      AccGeo-textSina-tweets
      W40.592 10.287 3
      W50.614 30.306 1

      除此之外,本文还进行了用户预测实验。用户预测的目的是预测给定时间,谁最有可能访问指定地点。与位置预测类似,文中把W5与W4模型的最佳精确度分别在两个数据集上进行了比较,比较结果如表 6所示。由于用户预测的方法和位置预测类似,因而不再赘述。

      表 6  W4 与 W5 用户预测精确度比较

      AccGeo-textSina-tweets
      W40.299 10.145 3
      W50.325 20.175 2
    • 大量含有情境信息的微博数据(如用户资料、地理位置信息、时间等)使用户动态行为的研究变的可行。然而,之前的研究工作都是基于静态情境的研究,并且它们中都无一完整考虑5W因素。本文提出了基于动态情境感知的W5模型,把动态情境的5个关键因素联合起来综合描述了用户的动态行为规律。文中基于两个数据集在用户和位置预测等实际应用中评估了W5的性能,实验结果表明它在用户预测和位置预测方面的准确率都优于W4模型,并且在时间误差和空间距离误差两方面也取得了较好的性能。将来的研究将致力于进一步优化当前应用的性能,并考察W5模型在其他方面的应用。与此同时,考虑是否还有更多的情境因素是W5模型不曾涉及的。

参考文献 (11)

目录

    /

    返回文章
    返回