撰文/李信马
1850年,哲学家路德维希·费尔巴哈(Ludwig Feuerbach)在论文《自然科学与革命》中以德语写下:“Der Mensch ist, was er ißt.”
这句话后来以英文版的“You Are What You Eat”(你吃什么,就是什么)传播到了全世界,既可以指饮食和健康,也可以指人的精神,由其经历所塑造。
美国行为主义心理学创始人约翰・B・华生(John B.Watson)在1924年出版的《行为主义》(Behaviorism)中也曾提出:“给我一打健康的婴儿,让他们在我设定的环境中成长,我能保证随机挑选一个,将其训练成我选定的任何类型的专家——医生、律师、艺术家、商人,甚至乞丐和小偷,无论其天赋、倾向、能力、职业和祖先种族如何。”
环境也许无法彻底决定一个人的命运,但足以深深影响人的三观。互联网的出现,让信息大爆炸,人类通过门户网站、搜索引擎、公众号微博等方式去了解世界,也被互联网上或真或假的消息印象。
进入移动互联网时代,短视频平台成为新的流量之王,据QuestMobile数据显示,2024年12月,国内用户的月人均使用手机时长已经提升至171.7小时,相当于每天超过5.5小时,其中用于短视频的达到了62.9小时。
图源:QuestMobile短视频让人欲罢不能,也因此有人担心,平台的算法是否编织了“信息茧房”,让人们只能看到自己感兴趣的同质化内容,逐渐变得闭塞甚至偏激?
出于这样的担忧和质疑,算法被视为巫术,背后的平台如抖音、快手也经常成为众矢之的。4月15日,抖音在北京举办了“安全与信任中心开放日”活动,由相关业务负责人就抖音算法原理、平台治理体系以及社会关切的问题,向包括DoNews在内的广大媒体展开了详细介绍和澄清。
短视频平台到底有没有为用户编织一个个的“信息茧房”?看完这篇文章,或者读者就会有一个答案。
一、推荐算法:主观无意愿
“信息茧房”(Information Cocoons),是由美国学者凯斯・桑斯坦(Cass R. Sunstein)在2006年出版的著作《信息乌托邦 —— 众人如何生产知识》中提出的。它是指在信息传播中,公众只注意自己选择的东西和使自己愉悦的内容,如同置身于一个由自己的兴趣和偏见编织而成的蚕茧之中,从而将自己的生活桎梏于像蚕茧一般的 “茧房” 中。
抖音推荐算法的原理是什么?
首先,我们要知道,每天投稿到抖音的内容有上亿,而一名抖音用户,差不多一天只会刷几百个内容。所以,推荐算法解决的如何从海量的内容中,挑选出用户喜欢的内容并分发给他。
但这个过程中,算法并不需要了解内容,它的重点是学习用户的行为。
抖音的推荐算法的包括“召回” 和 “排序” 两个核心环节,当用户点赞了一些美食的视频,算法就会从上亿量级的投稿内容中,通过召回策略,将适合推送给用户的内容缩减至万的量级乃至千的量级。
在筛选出用户可能感兴趣的几百到几千个内容后,抖音会通过排序算法,基于用户的短期行为(点赞、完播率等)与长期价值(收藏、与作者的持续互动、负反馈等),猜测用户会对哪些内容更感兴趣,然后依次打分,再按分数由高到低进行推送。
具体的算法有协同过滤算法,核心逻辑就是寻找兴趣相似的用户群体,比如系统发现你和另一个陌生人点赞的内容有重合,那么某个你看并点赞的内容,他可能也喜欢,反之亦然。
随着机器学习发展,神经网络技术被引入推荐系统。其核心步骤是将用户与内容的特征转化为数值化向量,通过多层网络结构进行复杂信号融合,从而更精准地匹配用户需求。基于神经网络衍生出了双塔召回模型,将用户特征与内容特征分别输入两个神经网络,通过顶层计算二者相似度,来判断用户对内容的潜在兴趣。
还有Wide Deep ,“Wide”层处理浅层次的历史行为数据(如用户曾点赞的内容),“Deep” 层通过深层网络挖掘潜在关联(如喜欢健身的用户可能也对爬山、游泳感兴趣),相比传统协同过滤,能更全面地捕捉用户兴趣。
下面这张图介绍了排序算法的基本原理。
图源:抖音从技术的视角来看,推送给用户的内容如果太发散,许多是用户不喜欢的,那用户的体验就会变差;但技术的出发点,也不是为了让用户只看到自己喜欢的内容。
抖音算法工程师刘畅表示:“用户长期价值,是抖音推荐算法的‘北极星指标’,也就是我们最核心的业务目标。”
这一指标更接地气的说法,是抖音希望有更多人使用抖音,并长期留下来。编织“信息茧房”可能短期让人停不下来,但长期来看不一定是好事,打个比方,如果你知道一个用户喜欢猫,就不停的给他推送猫相关的内容,那他一段时间后就会厌倦离开。还有的用户感性上喜欢看推送的内容,但理性上讨厌“奶头乐”,甚至会特意不点赞来扰乱推荐。
图源:抖音所以,抖音反而有动力在推送用户感兴趣的内容时,也通过算法推送多元化的内容,比如一方面,对用户感兴趣的内容,通过多样性打散、多兴趣召回、扶持小众(长尾)兴趣等方法控制相似内容出现的频次,另一方面,采用随机推荐、基于用户社交关系拓展兴趣、搜索推荐联动、“不感兴趣”不再展现等方式,让用户探索更多的内容。
图源:抖音刘畅在采访中也表示,抖音的算法在向“长期价值”转移:“我们一开始比较容易建模是偏短期性的,长期性的反而不好建模,对于一个短期的互动,它的随机性比较弱,但对长期兴趣它的随机性更强。这个时候我们的技术角度逐步攻克,进一步去做流量上调控。”
只是,客观来说,爱看自己喜欢的、认同的内容,是人性使然,如果2006年“信息茧房”这个现象就被提出,那么今天短视频平台的用户产生类似担忧也是不奇怪了。
二、平台治理:客观有困难
我们畏惧“信息茧房”,更多的是害怕被淹没在同质化甚至有偏见的信息中,最终潜移默化的被影响和改变。反过来说,如果我们接触的都是优质和健康的内容,即使是陷入了“信息茧房”中,似乎也不必太担忧。
但前面有说到,抖音的推荐算法是基于用户的行为,而非对内容的深度了解,那么,存不存在有害的内容在抖音上不断传播的可能呢?事实上,这个可能性是存在的。
客观上,这些情况的出现绝对不是抖音所希望看到的,只是治理上也有困难。目前,抖音的平台治理链路核心有两个原则。首先是所有在发布的内容都会经过评估,流量越高的内容经过评估的次数越多,标准也越严格。其次是“人工+机器”审核相互分工又密切配合。
具体来说,内容上传至抖音后,首先进入机器识别环节,如果内容被识别出含有高危特征,将被直接拦截。如果未命中高危特征但模型判断有问题,则会送至人工审核;若问题概率较低,则获得基础流量进入下一环节。视频被举报、评论区出现集中质疑、流量激增等情况出现,均可能触发“人工+机器”审核。一旦内容在任一环节被处置,系统会立即停止进一步推荐和分发。
下图可以看到,一个短视频要在抖音顺利分发,要经过机器和人工的四次审核。就像谈毒药都要谈剂量,这样也尽可能将不良信息的危害控制住。
图源:抖音实际上,平台治理是今年抖音重点任务。抖音生态运营经理陈丹丹在采访中表示,他们有陆续收到用户、媒体,还有主管部门的反馈,去年年底也经过了多轮的讨论:“我们确实把平台治理和算法透明度作为贯穿全年的重点。我们想要达到的一个目标是信任,因为获得用户信任、媒体信任、社会信任是很难的课题。在这个过程当中,需要我们不断地把治理体系、推荐算法技术做公开,更多是平台选择了这样的动作。”
短视频已经成为国人精神生活的重要组成部分,甚至可以说是当代互联网文化的重要载体,而非只是赚钱的娱乐,忽视这些,技术这把双刃剑也有可能造成破坏。除了商业价值之外,抖音也应在社区价值方面承担更多的责任。
0 条