主页 > 科技 >

神策数据:个性化推荐方法之基于用户画像、冷启动与多样性等

2019-03-20 18:48 来源:中国资讯报道网
  神策智能推荐是神策数据打造的一款基于用户行为分析的全流程智能推荐系统召回对于个性化推荐系统极其重要,神策数据之神策智能推荐在保障数据源的准确性基础上,使用了多种召回方法加强个性化推荐的推荐精准性。本文主要介绍神策数据基于用户画像、冷启动与多样性、多源数据的方法。
  一、基于用户画像的召回
  1.利用已有的关注关系
  关注关系就是用户显性化的喜爱偏好。用户的每次浏览、每次点击、每次填写、每次搜索都隐藏了你的用户偏好。如下图,当用户的站内搜索、浏览页面、点击标签、点击按钮等行为的数据都能抓到并进行分析,就能做到给用户的内容更逼近其心中所想和心中所爱。
  再比如,淘宝也会根据用户收藏和历史的搜索行为进行推荐,如下图淘宝的收藏中有运动裤,下面的猜你喜欢就会推荐相关的运动裤。
  2.基于标签构建用户画像
  不同性别、年龄、职业、地区的用户对内容的兴趣偏好有所不同,即使同一性别、年龄、职业的偏好也有很大差异,所谓千人千面,每个用户都有其特征和偏好。因此,很多企业都有自身的标签平台,如纵横小说会根据用户行为数据结合内容标签,构建用户画像标签,通过这种方式召回用户感兴趣的内容。
  二、保障推荐的有效冷启动和推荐多样性的方法
  推荐系统的冷启动场景主要分为三类:
  用户冷启动:即如何给新用户做个性化推荐,事实上,第一次展现给用户的item极其重要,决定了用户的第一印象;
  内容冷启动:即如何将新的内容推荐给潜在对它感兴趣的用户;
  系统冷启动:即如何在一个新开发的产品中(无用户、无用户行为,只有一些内容)设计个性化推荐,从而在产品刚发布就让用户体验到个性化推荐服务。
  1.运用自然语言处理技术,解决内容冷启动问题
  关于冷启动,神策智能推荐,会运用自然语言处理技术对新的内容进行语义分析,我们可以这样理解,市面上很多都是文本数据的一些“显式”使用方法,包括在前面介绍的标签也是,所谓显式,是指我们将可读可理解的文本本身作为了相关性计算、召回以及模型排序的特征。这样做的优势是能够清晰地看到起作用的是什么,但是其劣势是无法捕捉到隐藏在文本表面之下的深层次信息。例如,“衣服”和“上衣”指的是类似的东西,“厚外套”和“棉服”具有很强的相关性,类似这样的深层次信息,是显式的文本处理所无法捕捉的,因此我们需要一些更复杂的方法来捕捉,而自然语言处理技术就能捕捉到,运用从词下沉到主题的思路,挖掘更深层次的核心信息。
  神策智能推荐运用自然语言处理技术——基于神经网络的文本语义分析模型(如下图),相比市面上通过打标签的方式推荐,可以做到更深层次的偏好挖掘推荐,举个例子,如果用户阅读了大量包含甄子丹、成龙、李小龙等关键词的文章,可以挖掘出用户对功夫类主题的内容偏好,并为其推荐。
  2.运用UCB探索用户的潜在兴趣算法,保证推荐结果的多样性
  在推荐的过程中,需要考虑给新item展示的机会,比如给一个喜欢历史分类资讯的用户推荐一些娱乐、政治等其他资讯,解决加强推荐多样性的问题。
  大家所熟知的是通过随机分配一部分流量给新item曝光,得到一些反馈,然后模型才能对其有较好的建模能力,这是比较传统的冷启动套路。
  神策智能推荐采用的是upperconfidence bound(UCB)策略:假设有K个新item没有任何先验,每个item的回报也完全不知道。每个item的回报均值都有个置信区间,而随着试验次数增加,置信区间会变窄,对应的是最大置信边界向均值靠拢。如果每次投放时,我们选择置信区间上限最大的那个,则就是UCB策略。这个策略主要是通过以下两个原理达成更好地推荐:均值差不多时,优先给统计不那么充分的资讯多些曝光;均值有差异时,优先出效果好的。
  三、根据多源数据召回,保障推荐的全面性和精准性
  企业产生数据的方式多种多样,推荐系统的个性化精准推荐,离不开对业务和用户的精准把控,只有获取足够全面、颗粒度足够细的数据才能更精准的了解用户。神策智能推荐支持企业结合业务角度和时事热点等多方面,利用多种数据源的整合与综合分析,如支持将热门、编辑精选、最新、本地化内容等多类数据进行综合,吸取不同数据源的特点,并将这些内容放入到候选集里,为排序提供足够全面且详尽的内容。
  比如,某个资讯类APP的编辑会在热门流中精选出部分内容,形成一个精选内容集,就是一个精选出来的数据源,可将其放入候选集中,再次推荐增加曝光。再比如,当出了某些热门事件,资讯类APP就可以通过编辑打标签、手动筛选或通过某个简单的程序抓取相关的内容,将其归为一类放入内容池,再经过一系列操作后进行推荐。
  最后,我们整体上回顾一下之前介绍的召回方法(如下图)。
  事实上,神策智能推荐是以数据为根基,4种主要召回的方法为关键,保障召回的候选集的全面、准确、个性化,为后面的排序打下良好基础。这里引用神策数据架构师房东雨的一句话,“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”,这也是神策智能推荐如此强调数据根基的原因,因为如果你的数据根基没有做好,那所有的工作都是徒劳的。事实上,为企业建立良好的数据根基也是神策数据一直在做的事,如果你有需要或疑问都可以通过4006509827电话联系我们,会有专业的人员为您解答。
责任编辑:资讯报道
网站首页 我要评论 分享文章 回到顶部