零售电商给你推荐喜爱的日用品、新闻阅读给你推荐合口味的知识、短视频软件向你推荐你最爱的娱乐视频……自个性化推荐算法在各种软件广泛应用开来,千人千面的说辞已经被互联 用户熟稔于心。可以说,这些被频繁使用的软件可能比消费者本身还要了解你的偏好。
本篇文章结构如下:
一、Tag处理:构建内容和用户侧写
所谓千人千面,放在产品中,人指的是用户,面指的是内容。一方面,用户因为年龄、性格、爱好、生活阅历的不同,对内容有不同的需求;另一方面,内容的种类和质量也影响用户的偏好。用户和内容的高效连接和互相成全,是推荐系统,尤其是推荐算法的最高目标。
1. 内容tag化
我们先来走一遍用户视角。
进入B站,有明确的动画、音乐、舞蹈、科技等按内容类型划分的一级导航区,以科技区为例,又可以展开为科学科普、 科人文、演讲公开课等二级导航,当你选择科学科普栏目,又能看到环境、科学、生物、气象这些小分类。
我们以罗翔教授的这篇《为什么刑法要严格解释》为例,从科技> 科人文频道,进入视频详情页,可以在页面中部看到和视频相关的信息。这里有三块重要信息。
第一,视频播放量、弹幕量、评论数和数据排行表现,分别为161.1万、2.6万、7967和全站日排行最高第七。
第二,点赞数、不喜欢数、投币数、收藏数和分项数,其中不喜欢数并不显示,其余可量化的数据为24.1万、10万、3.3万和7616。
第三,视频标签,这里区分了比较热门的罗翔、法考专辑标签,也有刑法、校园星UP、厚大等普通热度话题。
这样就可以得到一份有关视频内容的Tag标签。
2. 用户tag化
万物皆有联系,“你的气质里,藏着你读过的书和走过的路”告诉我们人格特质会受读书习惯和生活经验影响,而用户的浏览、消费等操作行为也隐藏着个人的偏好。
先来看一下B站用户会被记录哪些信息和行为数据。
历史浏览行为:
播放历史的记录使得用户可以方便的追踪到自己在什么时间看了什么视频,但用户往往并不会关注自己看到了哪里,而只在乎下一次点进去是否可以跳过已播放的部分。
但播放时长比是对视频质量评判的一个重要标准:播放时间短,用户可能只是被播放量或标题吸引点进来随便看看, 但实际并不偏好此类内容;播放时间中等,用户可能偏好此类内容,但视频时长或质量会影响观看完整度;播放时间长,反映出这类内容可能正对用户兴趣。
此外,用户在视频详情页对内容的点赞、收藏或不喜欢等操作,也反映出了个人偏好;评论作为文本数据,也可以从其长度、情感偏颇、可读性反映出用户对内容的喜好程度。
上述可以被用户明确感知到的行为被归为显式行为,而另一类包含屏幕操作轨迹、停留时长等不易被用户感知到的操作被称为隐式行为。后者除了被用于构建用户侧写外,也可以用于激发用户的显式行为,如在B站视频详情页停留时间满足一定水平后,会触发分享图标转为颜色鲜明的微信图标。
关注和订阅:
关注和订阅的up主、话题等,也会暴露用户的兴趣,例如,用户的关注列表里70%都是类似巫师财经、硬核的半佛仙人、财经药丸这类up主,那系统在评估用户爱好的时候大几率会给贴上金融爱好者的标签。
消费行为:
B站用户的消费除了会员外,还包含课程、虚拟游戏、演出展览、线下游戏等,而消费会留下交易金额、时间、地址、类型等痕迹。B站数亿活跃用户中,移动游戏月均付费用户接近150万,直播季度付费用户120万,占比仅为1%左右,作为“金主”,他们不仅在权益享受上优于普通用户,也会因其出色的消费能力而被推荐系统“盯上”,贴上“消费能力佳”的标签。
身份信息:
用户的身份信息包含性别、年龄、教育水平、地理位置等,允许访问通讯录、上 记录后,平台还可以获取到 交关系和其他产品使用情况,来推算用户对产品的需求程度。
从B站首页,我们可以发现,目前基于兴趣的推荐视频一般可以分为这几种:已关注、高赞视频、新星计划、关注的人赞过、广告和互动视频,这些标签正是基于内容或用户的tag标签推送到了用户面前,但单一的tag处理,推荐精确度上还有可以优化的空间。
二、打造圈层:内容类聚和用户群分
完成对内容和用户的tag处理后,这两者仍是个体,但个体间会因为标签的类似产生联系,从而多个个体能够进入同一圈子,权重和相似性通常被用作划分圈子内个体关联程度的标准。
1. 内容类聚
2. 用户群分
用户和用户之间的相似度常用用户行为来计算,这一过程被称为协同过滤,主要以基于物品的协同和基于用户的协同为底层框架。
基于内容的协同:
主体是内容,根据用户喜欢的视频,找到和这些视频相似的内容再推荐给用户。区别于上述的内容类聚,内容协同的过滤标准是用户行为指向内容的相似性,而后者的标准没有纳入用户的偏好。
基于用户的协同:
主体是用户,根据某一用户喜欢的视频,找到和这位用户有类似偏好的用户,再把这个群体所偏好的视频推荐给用户。
我们以B站不同视频的用户浏览情况举例,来区分这两类推荐方式。假设用户A喜欢看科技和数码区的内容,B站会给这类用户推荐什么视频:
根据给出的内容分区和浏览用户来判断用户的喜好,在基于内容的协同下,系统会给用户A推荐游戏区的内容,因为这三个分区的浏览用户相似度更高;而在基于用户的协同下,系统会给用户A推荐动画和游戏区,因为A和用户B、C的浏览历史相似度更高,而这个群体似乎更偏好这两个分区。
这一算法更常出现在推荐场景。观察下面这个例子,可以发现用户近期观看的偏好和关注up主皆是舞蹈音乐类,所以首页推荐同类视频的占比可以达到60%以上。
三、巧用推荐:B站up主与平台运营
1. up主运营建议
(1)内容冷启动
(2)持续创作能力的培养
(3)普通用户也可以训练自己的待看清单
利用推荐算法的机制,普通用户也可以参照其原理,训练自己的推荐清单,从而合理利用B站。比如,喜欢科普知识类分享的用户,在关注同类up主、延长科普类视频播放时长、增加点赞、评论、分享行为后,会发现首页推送会更合自己的兴趣。
2. 平台运营建议
(1)用户冷启动
相对内容,用户从注册到活跃,也会面临一个从0到1的过程,平台在此期间最重要的目的是通过优质内容提高用户活跃和留存。相比行为数据,身份信息是平台可以获取到第一手信息,比如依据手机品牌对用户偏好做出第一轮兴趣猜想。
但要留住用户,平台更重要的任务是寻找到小白用户的兴趣点,给他贴上标签、划分兴趣圈。一方面,平台可以通过某频道的强曝光逐步探索用户的兴趣,锁定具体分区并逐渐缩小范围,或是根据年龄这一维度更多元的属性来做用户协同推荐;另一方面,平台可以积极利用用户在初始阶段主动选择的分区、关键词搜索行为来逐步构建侧写。
(2)内容多样性和质量优化
(3)推荐算法也要跳出封地
推荐算法的怪圈在于“信息茧房”,一种体现是,用户越是消费某一类内容,系统越会推荐同类内容,而其他内容被隔离在外;另一种体现是,数据表现越好的内容越能获得推荐,而长尾视频无出头之日。
针对前者,B站的推荐系统并不会止步于用户已有兴趣的推荐,而是会在探索中鼓励用户发现自身更多元化的兴趣,这就是基于用户的协同推荐要优于基于内容的协同的地方。
针对后者,B站在长尾视频曝光上,引入了新星计划(具体可参考:《从三个方面解读:B站用户激励体系》),也会提高首页推荐的权重。
(4)推荐系统>推荐算法
(5)up主持续创作的引导
尤其需要注意的是,B站目前月均活跃up主的数量已达到百万级,如何按照活跃度、关注度、创作质量等维度合理分配up主的推荐比重,是B站运营迫切需要解决的问题之一。
题图来自 络
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!