-
随着手机应用的普及,移动技术已经成为人们生活中不可或缺的一部分。人们利用手机通讯、浏览网上的信息等,使电商和移动运营商掌握了大量移动用户上网行为的数据。如何利用这些数据预测移动用户的上网行为,并在预测的基础上对用户进行内容推荐成为了学术界的研究热点。目前大部分电商网站,如淘宝、亚马逊等,都利用所掌握的用户数据为用户提供产品推荐
与传统的用户购买记录和用户评分记录不同,移动用户浏览互联网信息的行为记录存在很大不确定性。这就导致了传统的基于用户购买或评分数据的推荐算法不适用于基于移动用户浏览行为的推荐。移动用户常常为了完成一个自己相对陌生的临时任务,需要利用手机在互联网上浏览大量相关的信息。当这项工作完成以后,该用户很少浏览相关信息。例如,一个移动用户去伦敦度假,他会利用手机在互联网上浏览大量关于伦敦旅游景点的信息。当他度假回来,可能就很少关注伦敦旅游景点的信息。移动用户在互联网上的大部分浏览行为都是为了完成这种临时性的任务而产生的,所以移动用户浏览大部分互联网信息的原因并不是自己的兴趣,而是这种临时的需求,这就导致了移动用户浏览行为记录存在很大的不确定性。所以很难利用传统的推荐算法发现用户真正感兴趣的互联网信息。为了能够从移动用户浏览行为的记录中发现移动用户的兴趣,本文提出一种新的基于移动用户浏览行为的推荐模型(recommendation model based on mobile user behaviors, RMBDMU)。该模型不仅分析了移动用户浏览互联网信息的次数,还分析了移动用户关注互联网信息的天数,从而分析出移动用户的兴趣。本文有以下3个贡献。
1) 通过分析移动用户浏览互联网信息的记录,发现造成传统推荐算法无法有效地应用于基于移动用户浏览信息推荐的原因。
2) 提出一种新的基于移动用户浏览行为的推荐模型(RMBDMU)。
3) 在真实的移动用户浏览行为的数据上对提出的推荐模型进行实验,实验结果表明该推荐模型比传统的推荐算法更为有效。
-
本文提出一个新的基于移动用户浏览行为的推荐模型(RMBDMU)。该模型建立在概率频繁项集挖掘的基础上,发现移动用户对于不同主题的互联网信息的兴趣度,然后根据兴趣度的大小,将主题以递减的方式排序,最后将前N个主题推荐给移动用户。
设共有m个主题的互联网信息。${U_u} = \{ {u_1}, {u_2}, \cdots, {u_n}\} $是移动用户u在n天内的浏览记录。${u_i} = \{ {a_{i1}}, {a_{i2}}, \cdots, {a_{im}}\}, 1 \le i \le n$表示移动用户u在第i天的浏览记录。令${v_u}(j) = \left| {\{ {a_{ij}}|1 \le i \le n, {a_{ij}} \ne 0\} } \right|$,$(1 \le j \le m)$表示移动用户u对第i个主题的关注天数。aij表示该移动用户u在第i天浏览第j个主题的浏览次数,则该移动用户u在第i天浏览第j个主题的概率是:
$$ P_u^i(j) = \frac{{{a_{ij}}}}{{\sum\limits_{k = 1}^m {{a_{ik}}} }} $$ (1) ${P_u}(j) = \{ P_u^i(j)\left| {1 \le i \le n \wedge P_u^i(j) \ne 0} \right.\} $是由移动用户u在n天内浏览第j个主题的非零概率所组成的集合。假设minsup是用户定义的最小关注天数,当移动用户关注的时间小于minsup,则可以认为移动用户对于该主题不感兴趣。对于Pu(j)中第i个元素${p_i} \in {P_u}(j)$,存在一个随机变量$X_u^j(i)$,使得$X_u^j\left( i \right)$服从参数为${p_i} \in {P_u}(j)$的二项分布。$X_u^j = \sum\limits_{i = 1}^{\left| {{P_u}(j)} \right|} {X_u^j(i)} $服从泊松二项分布,并且$X_u^j$的期望值$\mu = \sum\limits_{i = 1}^{\left| {{P_u}(j)} \right|} {{p_i}} $。此时$X_u^j$表示移动用户u关注第j个主题的持续时间,利用移动用户u关注时间大于或等于最小关注时间的概率,即$P\{ X_u^j \ge {\rm{minsup}}\} $,来度量移动用户u对第j个主题的互联网信息的兴趣度。利用泊松分布来评估泊松二项分布,即$P\{ X_u^j \ge {\rm{minsup}}\} $的值,本文用Pu, j来表示。Pu, j的计算公式为[11-13]:
$$ \begin{array}{c} {P_{u, j}} = P\{ X_u^j \ge {\rm{minsup}}\} \approx \\ \left\{ {\begin{array}{*{20}{c}} {1-F({\rm{minsup}}-1, \mu ), {\rm{minsup}} \le \left| {{P_u}(j)} \right|}\\ {0, {\rm{minsup}} > \left| {{P_u}(j)} \right|} \end{array}} \right. \end{array} $$ (2) 式中,$F({\rm{minsup}}-1, \mu ) = \frac{{\int_{{\rm{ }}\mu }^{{\rm{ }}\infty } {{t^{{\rm{minsup}}-1}}{{\rm{e}}^{-t}}{\rm{d}}t} }}{{({\rm{minsup}} - 1)!}}$
为了使模型有更好的推荐效果,本文从两方面对第j个主题信息的兴趣度的预测结果进行优化。
1) 利用用户邻居对用户的兴趣度进行优化
如果不同的移动用户具有相似的行为,那么他们的兴趣也可能相似,所以利用皮尔森相似度来对移动用户行为的相似性进行度量,从而发现每个移动用户的邻居用户,利用邻居用户对用户的兴趣度进行优化。
$$ {\rm{Sim}}(u, v) = \frac{{\sum\limits_{i \in {I_{u, v}}} {({P_{u, i}}-\overline {{P_u}} )({P_{v, i}}-\overline {{P_v}} )} }}{{\sqrt {\sum\limits_{i \in {I_{u, v}}} {{{({P_{u, i}}-\overline {{P_u}} )}^2}} } \sqrt {\sum\limits_{i \in {I_{u, v}}} {{{({P_{v, i}} - \overline {{P_v}} )}^2}} } }} $$ (3) 式(3)计算移动用户u和移动用户v之间的皮尔森相似度,其中${I_{u, v}} = \{ i\left| {{P_{u, i}} \ne 0 \wedge {P_{v, i}}} \right. \ne 0\} $,而${\bar P_u}$表示移动用户u关注互联网主题的关注时间大于等于最小关注时间的非零概率的平均值。利用皮尔森相似度,就可以找到移动用户u的前K个邻居用户。利用式(4)得到了移动用户u的邻居用户关注第j个主题的关注度,最后利用式(5)得到用户u对第j个主题关注概率的优化值,其中α为控制权重的参数。
$$ {P_{R(u)}}(j) = \frac{1}{K}\sum\limits_{v \in R(u)} {{\rm{Sim}}(u, v)P\{ X_v^j \ge {\rm{minsup}}\} } $$ (4) $$ {P_u}(j) = \alpha \cdot P\{ X_u^j \ge {\rm{minsup}}\} + (1-\alpha ){P_{R(u)}}(j) $$ (5) 2) 利用主题邻居对用户的兴趣度进行优化
为了能够更好地预测移动用户u对于第j个主题的感兴趣程度,利用移动用户u在n天中浏览第j个主题的浏览次数占浏览所有主题的总浏览次数的百分比Pru(j)来对预测的结果进行优化。为了使Pru(j)的优化效果更好,利用基于项目的皮尔森相似度来寻找第j个主题的邻居集合,利用找到的邻居集合对Pru(j)进行优化,从而得到最终的优化参量。假设${\Pr _u} = \{ {\Pr _u}(1), {\Pr _u}(2), \cdots, {\Pr _u}(m)\} $,其中Pru(j)表示移动用户u在n天中浏览第j个主题的浏览次数占n天内浏览全部主题的次数的概率,即:
$$ {\Pr _u}(j) = \frac{{\sum\limits_{i = 1}^n {{a_{ji}}} }}{{\sum\limits_{i = 1}^n {\left( {\sum\limits_{k = 1}^m {{a_{ik}}} } \right)} }} $$ (6) 利用皮尔森相似度寻找每一个主题的邻居集合。式(7)表示第i个主题和第j个主题的皮尔森相似度,其中${U_{i, j}} = \{ u\left| {{P_u}(i) \ne 0 \wedge {P_u}(j)} \right. \ne 0\} $,而$\overline {P(j)} $表示所有移动用户在n天中浏览第j个主题的浏览次数占n天内浏览全部主题的次数的非零概率的平均值。
$$ {\rm{Sim}}(i, j) = \frac{{\sum\limits_{u \in {U_{i, j}}} {({P_u}(i)-\overline {P(i)} )({P_u}(j)-\overline {P(j)} )} }}{{\sqrt {\sum\limits_{u \in {U_{i, j}}} {{{({P_u}(i)-\overline {P(i)} )}^2}} } \sqrt {\sum\limits_{u \in {U_{i, j}}} {{{({P_u}(j) - \overline {P(j)} )}^2}} } }} $$ (7) 利用皮尔森相似度,可以找到第j个主题的前M个邻居,从而利用式(8)得到对于第j个主题,基于邻居主题的关注度。最终利用式(9)优化用户u对第j个主题关注度。其中β是控制权重的参数。
$$ {P_u}(R(j)) = \frac{1}{M}\sum\limits_{i \in R(j)} {{\rm{Sim}}(i, j){P_u}(i)} $$ (8) $$ \Pr _u^j = \beta \cdot {\Pr _u}(j) + (1-\beta ){P_u}(R(j)) $$ (9) 最后关于用户对第j个主题的兴趣度,即Interesingu(j)的预测结果是(γ是控制权重的参数):
$$ {\rm{Interestin}}{{\rm{g}}_u}(j) = \gamma \cdot {P_u}(i) + (1-\gamma )\Pr _u^j $$ (10) -
本文利用移动用户的人均F1值和在测试集中,移动用户人均浏览推荐主题的平均浏览次数,对测试结果进行评估。F1值是融合了正确率和召回率的指标,即是准确率和召回率的调和平均值[14]。人均F1值如式(12)所示,其中n表示用户的人数,Precisioni表示对第i个用户推荐的准确率,即对第i个移动用户推荐,并且被该用户浏览的主题占为第i个用户推荐的全部浏览主题的百分比,Recalli表示对第i个用户推荐的召回率,即对第i个移动用户推荐,并被该用户浏览的主题占总该移动用户浏览总主题数的百分比。
$$ F1 = \frac{1}{n}\sum\limits_{i = 1}^n {F{1_i}} = \frac{1}{n}\sum\limits_{i = 1}^n {\frac{{2 \times {\rm{Precisio}}{{\rm{n}}_i} \times {\rm{Recal}}{{\rm{l}}_i}}}{{{\rm{Precisio}}{{\rm{n}}_i} + {\rm{Recal}}{{\rm{l}}_i}}}} $$ (12) -
利用2013年10月15日-2013年10月31日的浏览数据作为训练集,2013年10月1日-2013年10月14日的浏览数据训练模型中的参数。
1) 对于参数K和参数M的调节:为了评估随着用户邻居数K的变化对模型的推荐效果的影响,设置α、β和γ为0.1,minsup为1,M和N为5,K的范围从1~20。实验结果显示当K大于等于5时,人均F1值达到稳定,所以设置K等于5。在评估主题邻居数M对推荐效果的影响时,设置a、β和γ为0.1,minsup为1,N为10,K为5,M从1~20,实验结果显示当M≥5时,人均F1值达到稳定,设置M为5。
2) 对于参数α和β进行调节,设minsup为1,M、N和K为5,当测试α对推荐效果的影响时,b和γ为0.1,α的取值范围从0.1~1。实验结果显示当a≥0.7时,人均F1值达到稳定,即52.8%,所以设置α为0.7,当测试β对推荐效果的影响时,设置a为0.7,β的取值范围是从0.1~1。实验结果显示当β≥0.8时,人均F1值达到稳定,即55.8%,所以设置β为0.8。
3) 最大推荐主题数N:为了评估最大推荐数N,设minsup为1,α为0.7,M和K为5,β为0.8,γ为0.1。N的取值范围是从1~20,随着N的增加,推荐效果有很大的改进。当N≥10,推荐效果达到稳定状态。此时人均F1值为53.41%。所以设N的最大值为10。
4) 参数γ:为了评估γ的变化对推荐效果的影响,设N为10,α为0.7,M和K为5,β为0.8,minsup为1。在实验中γ的取值范围从0.1~1。实验结果显示人均F1值随γ的增大而增大,当g等于0.9时,人均F1值达到最大,所以实验值设置γ为0.9。
5) 最小关注天数minsup:为了发现最小关注天数变化对推荐结果的影响,设N等于10,α为0.7,M和K为5,β为0.8,γ等于0.9。minsup从1~15。实验结果显示,人均F1值随minsup的增大而增大,当minsup≥13时,人均F1值达到稳定值。所以设置minsup为13。
-
本文有4个对比实验,分别是:1)基于项目邻居的协同过滤推荐算法(collaborative filtering recommendation model based on item neighbors, CFRMIN)。该算法利用皮尔森相似度寻找用户浏览过的主题的邻居,然后利用用户浏览过的主题的邻居集合去预测用户对自己浏览过的主题的感兴趣程度[6]。2)基于隐语义模型的推荐算法(rcommendation model based on latent factor model, RMLFM)[4]。3)基于浏览次数的推荐算法(rcommendation model based on browsing times, RMBT),即将所有用户浏览过的主题按用户浏览次数,以递减的顺序排序,将前N个推荐给用户。4)基于用户关注天数的推荐算法(recommendation model based on concerning a number of days, RMCD),即将用户浏览过的主题按用户关注的天数,以递减的顺序排序,将前N个推荐给用户。
本文通过两组实验测试模型的有效性。1)利用31 660个移动用户2013年10月日-2013年10月31日的浏览数据作为训练集。并以2013年11月的浏览数据作为测试集,测试结果如图 3和图 4所示。2)训练集和参数不变,以2013年12月的浏览数据作为测试集,测试结果如图 5和图 6所示。本文提出的推荐模型(RMBDMU)的实验效果总体优于CFRMIN和RMLFM的实验效果。正如第2.3节提到的,首先移动用户关注的大量信息中,只有很少的一部分是和他的兴趣相关的,其次,在一段时期,移动用户浏览越多的信息,可能不是与其兴趣相关的。所以寻找主题之间的关系,是非常困难的。CFRMIN和RMLFM都是基于主题之间的相互关系的,所以效果很差。图 3和图 5中,可以看出当N等于2时,RMBDMU的人均F1值分别是0.443和0.412。随着N的增大,RMBDMU的人均F1值逐渐的增大。当N大于等于8时,RMBDMU的人均F1值到达稳定,分别是0.594和0.591。虽然RMBDMU的人均F1值随着N值得增大而增大,但是RMBDMU的人均F1值与RMCD和RMBT的人均F1值非常接近。这说明RMBDMU推荐的主题和RMCD和RMBT推荐给用户的主题,用户都有关注。但是图 4和图 6显示,用户人均对RMBDMU推荐主题的平均浏览次数远远大于用户人均对RMCD和RMBT推荐给用户主题的平均浏览次数。这说明RMBDMU推荐给用户的主题,用户的关注度更高。
A Recommendation Model Based on Browsing Behaviors of Mobile Users
-
摘要: 推荐算法已经被广泛地应用于很多领域。但是如果利用传统的推荐算法预测移动用户浏览互联网的行为,并在此基础上对移动用户进行个性化的内容推荐,传统推荐算法的推荐效果往往比较差。该文通过分析移动用户浏览互联网的记录,得出传统推荐算法效果差的原因。在此基础上,提出了一个基于移动用户浏览行为的推荐模型,即RMBDMU。该模型可以对移动用户浏览互联网的行为进行预测,在预测的基础上对移动用户进行内容推荐。为了验证推荐模型的有效性,在真实的移动用户浏览互联网的行为数据上进行了实验。实验结果显示基于移动用户浏览行为的推荐模型比传统的推荐算法更为有效。Abstract: Recommendation algorithms have been commonly adopted in many fields. However, traditional recommendation algorithms fail to achieve the expected recommendation results if they are applied to predict browsing behaviors of the mobile users and further to recommend personalized content to the mobile users. By analyzing the Internet browsing data of the mobile users, this paper proposes a recommendation model based on browsing data of mobile users, denoted as RMBDMU, to predict the future browsing activities of the mobile users and take them as the bases to recommend contents to the mobile users. An experiment on the Internet browsing behavior data of the real mobile users is conducted to verify the effectiveness of the model. The experiment result shows that the recommendation model based on browsing data of mobile users is more effective than the traditional recommendation algorithms.
-
[1] HERLOCKER J L, KONSTAN J A, BORCHERS A, et al. An algorithmic framework for performing collaborative filtering[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Berkeley:ACM, 1999:230-237. https://www.researchgate.net/publication/221300972_An_algorithmic_framework_for_performing_collaborative_filtering [2] SCHAFER J B, DAN F, HERLOCKER J, et al. Collaborative filtering recommender systems[C]//The Adaptive Web, Methods and Strategies of Web Personalization. Berlin, Heidelberg:Spring, 2015:46-45. [3] SARWAR B, KARYPIS G, KONSTAN J, et al. Item-based collaborative filtering recommendation algorithms[C]//Proceedings of the 10th International Conference on World Wide Web. Hong Kong, China:ACM, 2001:285-295. http://dl.acm.org/citation.cfm?id=372071 [4] FUNK S. FunkSVD[EB/OL]. (2006-12-11). http://sifter.org/~simon/journal/20061211.html. [5] KOREN Y, BELL R. Advances in collaborative filtering[M]. Recommender Systems Handbook. New York:Springer, 2011. [6] HU Y, KOREN Y, VOLINSKY C. Collaborative filtering for implicit feedback datasets[C]//Eighth IEEE International Conference on Data Mining. Pisa:IEEE, 2009:263-272. http://ieeexplore.ieee.org/document/4781121/ [7] CHEN J, JIN Q, ZHAO S, et al. Does product recommendation meet its waterloo in unexplored categories:no, price comes to help[C]//Proceedings of the 37th International ACM SIGIR Conference on Research & Development in Information Retrieval. Gold Coast:ACM, 2014:667-676. http://dl.acm.org/citation.cfm?id=2609608 [8] AGRAWAL R SRIKANT R. Fast algorithm for mining association rules[J]. Journal of Computer Science & Technology, 1994, 15(6):619-624. http://www.mendeley.com/research/fast-algorithm-mining-association-rules-4/ [9] HAN J, KAMBER M, PEI J. Data mining:Concepts and techniques[M]. Netherlands:Elsevier, 2011. [10] CHUI C K, KAO B, HUNG E. Mining frequent item sets from uncertain data[J]. 2007, 4426:47-58. http://ieeexplore.ieee.org/document/6057179/ [11] LEUNG K S. Uncertain frequent pattern mining[M]. Frequent Pattern Mining. New York:Springer International Publishing, 2014. [12] LIU C, CHEN L, ZHANG C. Summarizing probabilistic frequent patterns:a fast approach[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Chicago:[s.n.], 2013:527-535. http://dl.acm.org/citation.cfm?id=2487618 [13] BERNECKER T, CHENG R, CHEUNG D W, et al. Model-based probabilistic frequent itemset mining[J]. Knowledge and Information Systems, 2013, 37(1):181-217. doi: 10.1007/s10115-012-0561-2 [14] WANG L, CHEUNG D W L, CHENG R, et al. Efficient mining of frequent item sets on large uncertain databases[J], IEEE Transactions on Knowledge and Data Engineering, 2012, 24(12):2170-2183. doi: 10.1109/TKDE.2011.165 [15] CAM L L. An approximation theorem for the Poisson binomial distribution.[J]. Pacific Journal of Mathematics, 1960, 10(4):1181-1197. doi: 10.2140/pjm