留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于移动用户浏览行为的推荐模型

丁哲 秦臻 郑文韬 秦志光

丁哲, 秦臻, 郑文韬, 秦志光. 基于移动用户浏览行为的推荐模型[J]. 电子科技大学学报, 2017, 46(6): 907-912. doi: 10.3969/j.issn.1001-0548.2017.06.020
引用本文: 丁哲, 秦臻, 郑文韬, 秦志光. 基于移动用户浏览行为的推荐模型[J]. 电子科技大学学报, 2017, 46(6): 907-912. doi: 10.3969/j.issn.1001-0548.2017.06.020
DING Zhe, QIN Zhen, ZHENG Wen-tao, QIN Zhi-guang. A Recommendation Model Based on Browsing Behaviors of Mobile Users[J]. Journal of University of Electronic Science and Technology of China, 2017, 46(6): 907-912. doi: 10.3969/j.issn.1001-0548.2017.06.020
Citation: DING Zhe, QIN Zhen, ZHENG Wen-tao, QIN Zhi-guang. A Recommendation Model Based on Browsing Behaviors of Mobile Users[J]. Journal of University of Electronic Science and Technology of China, 2017, 46(6): 907-912. doi: 10.3969/j.issn.1001-0548.2017.06.020

基于移动用户浏览行为的推荐模型

doi: 10.3969/j.issn.1001-0548.2017.06.020
基金项目: 

国家自然科学基金 61133016

国家自然科学基金 61300191

国家自然科学基金 61202445

国家自然科学基金 61370026

四川省科技支撑计划 2014GZ0106

四川省科技支撑计划 2016JZ0020

详细信息
    作者简介:

    丁哲(1982-), 男, 博士生, 主要从事机器学习、推荐算法和信息安全方面的研究

  • 中图分类号: TP393

A Recommendation Model Based on Browsing Behaviors of Mobile Users

图(6)
计量
  • 文章访问数:  3841
  • HTML全文浏览量:  1225
  • PDF下载量:  111
  • 被引次数: 0
出版历程
  • 收稿日期:  2016-07-21
  • 修回日期:  2016-12-15
  • 刊出日期:  2017-11-30

基于移动用户浏览行为的推荐模型

doi: 10.3969/j.issn.1001-0548.2017.06.020
    基金项目:

    国家自然科学基金 61133016

    国家自然科学基金 61300191

    国家自然科学基金 61202445

    国家自然科学基金 61370026

    四川省科技支撑计划 2014GZ0106

    四川省科技支撑计划 2016JZ0020

    作者简介:

    丁哲(1982-), 男, 博士生, 主要从事机器学习、推荐算法和信息安全方面的研究

  • 中图分类号: TP393

摘要: 推荐算法已经被广泛地应用于很多领域。但是如果利用传统的推荐算法预测移动用户浏览互联网的行为,并在此基础上对移动用户进行个性化的内容推荐,传统推荐算法的推荐效果往往比较差。该文通过分析移动用户浏览互联网的记录,得出传统推荐算法效果差的原因。在此基础上,提出了一个基于移动用户浏览行为的推荐模型,即RMBDMU。该模型可以对移动用户浏览互联网的行为进行预测,在预测的基础上对移动用户进行内容推荐。为了验证推荐模型的有效性,在真实的移动用户浏览互联网的行为数据上进行了实验。实验结果显示基于移动用户浏览行为的推荐模型比传统的推荐算法更为有效。

English Abstract

丁哲, 秦臻, 郑文韬, 秦志光. 基于移动用户浏览行为的推荐模型[J]. 电子科技大学学报, 2017, 46(6): 907-912. doi: 10.3969/j.issn.1001-0548.2017.06.020
引用本文: 丁哲, 秦臻, 郑文韬, 秦志光. 基于移动用户浏览行为的推荐模型[J]. 电子科技大学学报, 2017, 46(6): 907-912. doi: 10.3969/j.issn.1001-0548.2017.06.020
DING Zhe, QIN Zhen, ZHENG Wen-tao, QIN Zhi-guang. A Recommendation Model Based on Browsing Behaviors of Mobile Users[J]. Journal of University of Electronic Science and Technology of China, 2017, 46(6): 907-912. doi: 10.3969/j.issn.1001-0548.2017.06.020
Citation: DING Zhe, QIN Zhen, ZHENG Wen-tao, QIN Zhi-guang. A Recommendation Model Based on Browsing Behaviors of Mobile Users[J]. Journal of University of Electronic Science and Technology of China, 2017, 46(6): 907-912. doi: 10.3969/j.issn.1001-0548.2017.06.020
  • 随着手机应用的普及,移动技术已经成为人们生活中不可或缺的一部分。人们利用手机通讯、浏览网上的信息等,使电商和移动运营商掌握了大量移动用户上网行为的数据。如何利用这些数据预测移动用户的上网行为,并在预测的基础上对用户进行内容推荐成为了学术界的研究热点。目前大部分电商网站,如淘宝、亚马逊等,都利用所掌握的用户数据为用户提供产品推荐

    与传统的用户购买记录和用户评分记录不同,移动用户浏览互联网信息的行为记录存在很大不确定性。这就导致了传统的基于用户购买或评分数据的推荐算法不适用于基于移动用户浏览行为的推荐。移动用户常常为了完成一个自己相对陌生的临时任务,需要利用手机在互联网上浏览大量相关的信息。当这项工作完成以后,该用户很少浏览相关信息。例如,一个移动用户去伦敦度假,他会利用手机在互联网上浏览大量关于伦敦旅游景点的信息。当他度假回来,可能就很少关注伦敦旅游景点的信息。移动用户在互联网上的大部分浏览行为都是为了完成这种临时性的任务而产生的,所以移动用户浏览大部分互联网信息的原因并不是自己的兴趣,而是这种临时的需求,这就导致了移动用户浏览行为记录存在很大的不确定性。所以很难利用传统的推荐算法发现用户真正感兴趣的互联网信息。为了能够从移动用户浏览行为的记录中发现移动用户的兴趣,本文提出一种新的基于移动用户浏览行为的推荐模型(recommendation model based on mobile user behaviors, RMBDMU)。该模型不仅分析了移动用户浏览互联网信息的次数,还分析了移动用户关注互联网信息的天数,从而分析出移动用户的兴趣。本文有以下3个贡献。

    1) 通过分析移动用户浏览互联网信息的记录,发现造成传统推荐算法无法有效地应用于基于移动用户浏览信息推荐的原因。

    2) 提出一种新的基于移动用户浏览行为的推荐模型(RMBDMU)。

    3) 在真实的移动用户浏览行为的数据上对提出的推荐模型进行实验,实验结果表明该推荐模型比传统的推荐算法更为有效。

    • 最常用的协同过滤推荐算法是建立在邻居模型的基础上。最早的基于邻居模型的协同过滤推荐算法是基于用户邻居的协调过滤推荐算法[1]。如果将基于用户邻居的协同过滤推荐算法应用于电商系统,该算法需要大量的计算量,这就导致了推荐效果较差。为了解决这一问题,基于项目邻居的协同过滤算法得到广泛的应用[2-3]

      基于隐语义模型推荐算法,如奇异分解,也是一种常用的协同过滤模型。隐语义模型中,隐因子建立用户兴趣和商品之间的联系[4-5]。文献[6]在SVD中引入了自信度,并提出基于隐反馈的推荐算法。文献[7]利用价格之间的联系处理推荐算法中的冷启动问题。

      频繁项集挖掘是数据挖掘中的一个重要的分支。1993年,文献[8]提出了Apriori算法。为了提高项集挖掘的效率,文献[9]提出了基于FP树挖掘算法,基于FP树挖掘算法相对Apriori算法,减少了挖掘频繁项集的运行时间和所需的空间。虽然Aprior和基于FP树挖掘算法得到了广泛的应用,但Apriori算法和基于FP树的挖掘算法很难直接应用于基于不确定数据集的频繁项集挖掘。在2007年,文献[10]提出了期望支持度的方法来计算项集在不确定数据集中的支持度。文献[11]提出了频繁概率来计算项集在不确定数据集中的支持度。本文利用频繁概率作为频繁度的度量。文献[12]提出了一种新的挖掘概率频繁项集的方法,该方法可以挖掘出由项集组成的集合,包含项集的个数最少,但包含的所有频繁项集的概率很高。而文献[12]中计算频繁概率的方法则是建立在泊松二项分布的相关理论[13-15]基础上。

    • 本文根据互联网信息的内容对互联网信息进行分类。由于移动用户浏览互联网信息的原因很多,并且在一时间段,移动用户关注的时间不一定随着浏览的次数增加而增加。所以传统推荐算法很难在浏览数据中发现移动用户的兴趣。

    • 本文应用的数据是31 660个用户3个月的智能手机应用程序日志,这些数据来源于网络运营商。当智能手机的应用程序访问互联网的资源时,就会生成其访问资源的记录。所使用的数据包括179 954 181个访问记录,每个记录是由表示其用户ID和被访问互联网资源的数字编码组成。通过使用正则表达式对不同关键字的匹配,得到了与被访问的互联网资源相匹配的主题。本文按照主题对信息进行分类,如体育类、金融类等。通过分析31 660个移动用户在2013年10月的浏览数据,发现移动用户的浏览特征。

    • 通过分析31 660个移动用户在2013年10月浏览网络信息的日志,获得移动用户浏览行为的特点。在2013年10月中,不同的关注天数的主题占2013年10月关注所有主题的人均百分比如图 1所示。在图 1中,横坐标表示移动用户对主题的关注天数,纵坐标表示关注相应天数的主题数占2013年10月总关注主题数的人均百分比。从图 1可以看出,在10月份,移动用户浏览的不同主题的信息,大部分主题只关注1~3天,即关注1~3天的主题数占10份关注总主题数的42%。随着关注时间的扩大,关注主题数急剧下降。当关注时间大于20天后,关注的主题数目趋近于平稳,约占10月份关注总主题数的5%。

      图  1  关注时间对比分析

    • 分析不同关注天数的主题的人均浏览次数,如图 2所示。通过分析图 2,可以发现在2013年10月,移动用户对主题的浏览次数并不一定随着关注时间的增加而增加。

      图  2  浏览次数对比

      通过上述分析,可以得出:1)移动用户关注大量的互联网信息,但是只有很少的一部分是与该用户的兴趣相关的;2)在一段时间之内,移动用户浏览次数多的互联网信息不一定与该用户的兴趣相关联。

    • 本文提出一个新的基于移动用户浏览行为的推荐模型(RMBDMU)。该模型建立在概率频繁项集挖掘的基础上,发现移动用户对于不同主题的互联网信息的兴趣度,然后根据兴趣度的大小,将主题以递减的方式排序,最后将前N个主题推荐给移动用户。

      设共有m个主题的互联网信息。${U_u} = \{ {u_1}, {u_2}, \cdots, {u_n}\} $是移动用户un天内的浏览记录。${u_i} = \{ {a_{i1}}, {a_{i2}}, \cdots, {a_{im}}\}, 1 \le i \le n$表示移动用户u在第i天的浏览记录。令${v_u}(j) = \left| {\{ {a_{ij}}|1 \le i \le n, {a_{ij}} \ne 0\} } \right|$,$(1 \le j \le m)$表示移动用户u对第i个主题的关注天数。aij表示该移动用户u在第i天浏览第j个主题的浏览次数,则该移动用户u在第i天浏览第j个主题的概率是:

      $$ P_u^i(j) = \frac{{{a_{ij}}}}{{\sum\limits_{k = 1}^m {{a_{ik}}} }} $$ (1)

      ${P_u}(j) = \{ P_u^i(j)\left| {1 \le i \le n \wedge P_u^i(j) \ne 0} \right.\} $是由移动用户un天内浏览第j个主题的非零概率所组成的集合。假设minsup是用户定义的最小关注天数,当移动用户关注的时间小于minsup,则可以认为移动用户对于该主题不感兴趣。对于Pu(j)中第i个元素${p_i} \in {P_u}(j)$,存在一个随机变量$X_u^j(i)$,使得$X_u^j\left( i \right)$服从参数为${p_i} \in {P_u}(j)$的二项分布。$X_u^j = \sum\limits_{i = 1}^{\left| {{P_u}(j)} \right|} {X_u^j(i)} $服从泊松二项分布,并且$X_u^j$的期望值$\mu = \sum\limits_{i = 1}^{\left| {{P_u}(j)} \right|} {{p_i}} $。此时$X_u^j$表示移动用户u关注第j个主题的持续时间,利用移动用户u关注时间大于或等于最小关注时间的概率,即$P\{ X_u^j \ge {\rm{minsup}}\} $,来度量移动用户u对第j个主题的互联网信息的兴趣度。利用泊松分布来评估泊松二项分布,即$P\{ X_u^j \ge {\rm{minsup}}\} $的值,本文用Pu, j来表示。Pu, j的计算公式为[11-13]

      $$ \begin{array}{c} {P_{u, j}} = P\{ X_u^j \ge {\rm{minsup}}\} \approx \\ \left\{ {\begin{array}{*{20}{c}} {1-F({\rm{minsup}}-1, \mu ), {\rm{minsup}} \le \left| {{P_u}(j)} \right|}\\ {0, {\rm{minsup}} > \left| {{P_u}(j)} \right|} \end{array}} \right. \end{array} $$ (2)

      式中,$F({\rm{minsup}}-1, \mu ) = \frac{{\int_{{\rm{ }}\mu }^{{\rm{ }}\infty } {{t^{{\rm{minsup}}-1}}{{\rm{e}}^{-t}}{\rm{d}}t} }}{{({\rm{minsup}} - 1)!}}$

      为了使模型有更好的推荐效果,本文从两方面对第j个主题信息的兴趣度的预测结果进行优化。

      1) 利用用户邻居对用户的兴趣度进行优化

      如果不同的移动用户具有相似的行为,那么他们的兴趣也可能相似,所以利用皮尔森相似度来对移动用户行为的相似性进行度量,从而发现每个移动用户的邻居用户,利用邻居用户对用户的兴趣度进行优化。

      $$ {\rm{Sim}}(u, v) = \frac{{\sum\limits_{i \in {I_{u, v}}} {({P_{u, i}}-\overline {{P_u}} )({P_{v, i}}-\overline {{P_v}} )} }}{{\sqrt {\sum\limits_{i \in {I_{u, v}}} {{{({P_{u, i}}-\overline {{P_u}} )}^2}} } \sqrt {\sum\limits_{i \in {I_{u, v}}} {{{({P_{v, i}} - \overline {{P_v}} )}^2}} } }} $$ (3)

      式(3)计算移动用户u和移动用户v之间的皮尔森相似度,其中${I_{u, v}} = \{ i\left| {{P_{u, i}} \ne 0 \wedge {P_{v, i}}} \right. \ne 0\} $,而${\bar P_u}$表示移动用户u关注互联网主题的关注时间大于等于最小关注时间的非零概率的平均值。利用皮尔森相似度,就可以找到移动用户u的前K个邻居用户。利用式(4)得到了移动用户u的邻居用户关注第j个主题的关注度,最后利用式(5)得到用户u对第j个主题关注概率的优化值,其中α为控制权重的参数。

      $$ {P_{R(u)}}(j) = \frac{1}{K}\sum\limits_{v \in R(u)} {{\rm{Sim}}(u, v)P\{ X_v^j \ge {\rm{minsup}}\} } $$ (4)
      $$ {P_u}(j) = \alpha \cdot P\{ X_u^j \ge {\rm{minsup}}\} + (1-\alpha ){P_{R(u)}}(j) $$ (5)

      2) 利用主题邻居对用户的兴趣度进行优化

      为了能够更好地预测移动用户u对于第j个主题的感兴趣程度,利用移动用户un天中浏览第j个主题的浏览次数占浏览所有主题的总浏览次数的百分比Pru(j)来对预测的结果进行优化。为了使Pru(j)的优化效果更好,利用基于项目的皮尔森相似度来寻找第j个主题的邻居集合,利用找到的邻居集合对Pru(j)进行优化,从而得到最终的优化参量。假设${\Pr _u} = \{ {\Pr _u}(1), {\Pr _u}(2), \cdots, {\Pr _u}(m)\} $,其中Pru(j)表示移动用户un天中浏览第j个主题的浏览次数占n天内浏览全部主题的次数的概率,即:

      $$ {\Pr _u}(j) = \frac{{\sum\limits_{i = 1}^n {{a_{ji}}} }}{{\sum\limits_{i = 1}^n {\left( {\sum\limits_{k = 1}^m {{a_{ik}}} } \right)} }} $$ (6)

      利用皮尔森相似度寻找每一个主题的邻居集合。式(7)表示第i个主题和第j个主题的皮尔森相似度,其中${U_{i, j}} = \{ u\left| {{P_u}(i) \ne 0 \wedge {P_u}(j)} \right. \ne 0\} $,而$\overline {P(j)} $表示所有移动用户在n天中浏览第j个主题的浏览次数占n天内浏览全部主题的次数的非零概率的平均值。

      $$ {\rm{Sim}}(i, j) = \frac{{\sum\limits_{u \in {U_{i, j}}} {({P_u}(i)-\overline {P(i)} )({P_u}(j)-\overline {P(j)} )} }}{{\sqrt {\sum\limits_{u \in {U_{i, j}}} {{{({P_u}(i)-\overline {P(i)} )}^2}} } \sqrt {\sum\limits_{u \in {U_{i, j}}} {{{({P_u}(j) - \overline {P(j)} )}^2}} } }} $$ (7)

      利用皮尔森相似度,可以找到第j个主题的前M个邻居,从而利用式(8)得到对于第j个主题,基于邻居主题的关注度。最终利用式(9)优化用户u对第j个主题关注度。其中β是控制权重的参数。

      $$ {P_u}(R(j)) = \frac{1}{M}\sum\limits_{i \in R(j)} {{\rm{Sim}}(i, j){P_u}(i)} $$ (8)
      $$ \Pr _u^j = \beta \cdot {\Pr _u}(j) + (1-\beta ){P_u}(R(j)) $$ (9)

      最后关于用户对第j个主题的兴趣度,即Interesingu(j)的预测结果是(γ是控制权重的参数):

      $$ {\rm{Interestin}}{{\rm{g}}_u}(j) = \gamma \cdot {P_u}(i) + (1-\gamma )\Pr _u^j $$ (10)
    • 本文利用移动用户的人均F1值和在测试集中,移动用户人均浏览推荐主题的平均浏览次数,对测试结果进行评估。F1值是融合了正确率和召回率的指标,即是准确率和召回率的调和平均值[14]。人均F1值如式(12)所示,其中n表示用户的人数,Precisioni表示对第i个用户推荐的准确率,即对第i个移动用户推荐,并且被该用户浏览的主题占为第i个用户推荐的全部浏览主题的百分比,Recalli表示对第i个用户推荐的召回率,即对第i个移动用户推荐,并被该用户浏览的主题占总该移动用户浏览总主题数的百分比。

      $$ F1 = \frac{1}{n}\sum\limits_{i = 1}^n {F{1_i}} = \frac{1}{n}\sum\limits_{i = 1}^n {\frac{{2 \times {\rm{Precisio}}{{\rm{n}}_i} \times {\rm{Recal}}{{\rm{l}}_i}}}{{{\rm{Precisio}}{{\rm{n}}_i} + {\rm{Recal}}{{\rm{l}}_i}}}} $$ (12)
    • 利用2013年10月15日-2013年10月31日的浏览数据作为训练集,2013年10月1日-2013年10月14日的浏览数据训练模型中的参数。

      1) 对于参数K和参数M的调节:为了评估随着用户邻居数K的变化对模型的推荐效果的影响,设置αβγ为0.1,minsup为1,MN为5,K的范围从1~20。实验结果显示当K大于等于5时,人均F1值达到稳定,所以设置K等于5。在评估主题邻居数M对推荐效果的影响时,设置aβγ为0.1,minsup为1,N为10,K为5,M从1~20,实验结果显示当M≥5时,人均F1值达到稳定,设置M为5。

      2) 对于参数αβ进行调节,设minsup为1,MNK为5,当测试α对推荐效果的影响时,bγ为0.1,α的取值范围从0.1~1。实验结果显示当a≥0.7时,人均F1值达到稳定,即52.8%,所以设置α为0.7,当测试β对推荐效果的影响时,设置a为0.7,β的取值范围是从0.1~1。实验结果显示当β≥0.8时,人均F1值达到稳定,即55.8%,所以设置β为0.8。

      3) 最大推荐主题数N:为了评估最大推荐数N,设minsup为1,α为0.7,MK为5,β为0.8,γ为0.1。N的取值范围是从1~20,随着N的增加,推荐效果有很大的改进。当N≥10,推荐效果达到稳定状态。此时人均F1值为53.41%。所以设N的最大值为10。

      4) 参数γ:为了评估γ的变化对推荐效果的影响,设N为10,α为0.7,MK为5,β为0.8,minsup为1。在实验中γ的取值范围从0.1~1。实验结果显示人均F1值随γ的增大而增大,当g等于0.9时,人均F1值达到最大,所以实验值设置γ为0.9。

      5) 最小关注天数minsup:为了发现最小关注天数变化对推荐结果的影响,设N等于10,α为0.7,MK为5,β为0.8,γ等于0.9。minsup从1~15。实验结果显示,人均F1值随minsup的增大而增大,当minsup≥13时,人均F1值达到稳定值。所以设置minsup为13。

    • 本文有4个对比实验,分别是:1)基于项目邻居的协同过滤推荐算法(collaborative filtering recommendation model based on item neighbors, CFRMIN)。该算法利用皮尔森相似度寻找用户浏览过的主题的邻居,然后利用用户浏览过的主题的邻居集合去预测用户对自己浏览过的主题的感兴趣程度[6]。2)基于隐语义模型的推荐算法(rcommendation model based on latent factor model, RMLFM)[4]。3)基于浏览次数的推荐算法(rcommendation model based on browsing times, RMBT),即将所有用户浏览过的主题按用户浏览次数,以递减的顺序排序,将前N个推荐给用户。4)基于用户关注天数的推荐算法(recommendation model based on concerning a number of days, RMCD),即将用户浏览过的主题按用户关注的天数,以递减的顺序排序,将前N个推荐给用户。

      本文通过两组实验测试模型的有效性。1)利用31 660个移动用户2013年10月日-2013年10月31日的浏览数据作为训练集。并以2013年11月的浏览数据作为测试集,测试结果如图 3图 4所示。2)训练集和参数不变,以2013年12月的浏览数据作为测试集,测试结果如图 5图 6所示。本文提出的推荐模型(RMBDMU)的实验效果总体优于CFRMIN和RMLFM的实验效果。正如第2.3节提到的,首先移动用户关注的大量信息中,只有很少的一部分是和他的兴趣相关的,其次,在一段时期,移动用户浏览越多的信息,可能不是与其兴趣相关的。所以寻找主题之间的关系,是非常困难的。CFRMIN和RMLFM都是基于主题之间的相互关系的,所以效果很差。图 3图 5中,可以看出当N等于2时,RMBDMU的人均F1值分别是0.443和0.412。随着N的增大,RMBDMU的人均F1值逐渐的增大。当N大于等于8时,RMBDMU的人均F1值到达稳定,分别是0.594和0.591。虽然RMBDMU的人均F1值随着N值得增大而增大,但是RMBDMU的人均F1值与RMCD和RMBT的人均F1值非常接近。这说明RMBDMU推荐的主题和RMCD和RMBT推荐给用户的主题,用户都有关注。但是图 4图 6显示,用户人均对RMBDMU推荐主题的平均浏览次数远远大于用户人均对RMCD和RMBT推荐给用户主题的平均浏览次数。这说明RMBDMU推荐给用户的主题,用户的关注度更高。

      图  3  第1组实验的移动用户人均F1值

      图  4  第1组实验用户人均浏览推荐主题平均浏览次数

      图  5  第2组实验的移动用户人均F1值

      图  6  第2组实验用户人均浏览推荐主题平均浏览次数

    • 本文首先分析传统推荐算法无法在移动用户上网浏览数据上进行有效内容推荐的原因。然后提出了一种基于移动用户浏览行为的推荐模型。通过在真实的移动用户浏览数据上进行测试,实验验证了模型的有效性。

参考文献 (15)

目录

    /

    返回文章
    返回