作者:字节跳动公共政策研究院袁祥王一
信息智能推荐算法是人工智能技术在信息传播领域的应用,它极大地提高了信息的生产和传播效率,带来了传播方式和传播活动的深刻变革,同时也引发了监管部门和用户对这一新技术运用中出现的内容质量和价值观问题、算法黑箱和信息茧房风险等多方面的关切和疑虑。面对这些关切和疑虑,学界进行了持续研究分析,互联网信息平台不断探索问题的解决和风险的防控,推动智能推荐技术的优化创新,以期把握算法的特点、价值和规律,促进人工智能时代信息传播的健康发展、安全发展。
算法不是信息传播中社会价值弱化的根源
媒体进入大众化和市场化时代以来,内容的低俗、低质和娱乐化倾向就开始显现,给主流价值的传播带来挑战。进入信息智能推荐算法时代,这一趋势还在延续,并有了新的表现形式。根本原因在于,大众偏好的内容往往不等同于优质的内容,而用户的需要、市场的要求是媒介技术发展的主要推动力,客观上助长了内容生态的低质化。
从算法设计的初衷看,其本身并不会提倡标题党、煽情和低俗化内容,但由于智能推荐算法要经由网上海量的数据来训练和生成,而在全网已经存在大量低质化信息和大众化审美品位没有得到根本提升的情况下,加之设计算法的工程师没有经过专业的新闻伦理训练,主要关注内容和用户兴趣的匹配度等指标,缺乏社会价值意识,在算法发展的初期也没有将对社会价值的导向要求和对低质信息的把关需要内化为算法的具体规则,在客观上呈现出推荐内容的低质化倾向。如果说在门户网站和社交网络时代,不符合用户偏好的信息还能经由编辑的专业推荐或关系链中其他人的转发推荐而有一定的传播空间,那么在算法时代,不同内容之间的“马太效应”更加凸显,符合偏好的内容可以经由算法的逐级放大有更广泛的影响,而其他内容则很难有生存空间。
算法并不必然助长内容生态的低质化。这要从算法设计的主要特征分析,分为个体、群体、整体三个层次的特征:对个体用户,算法一般通过对内容特征、人的特征、环境特征三个维度指标的分析,在特定人和特定内容之间做出力求精准的匹配。内容特征可能包括领域分类、主题词、实体词、来源、质量评分、相似文章等指标,人的特征包括兴趣、年龄、性别、职业、使用行为、机型等指标,环境特征包括时间、地点、天气和网络类型等。在群体层面,算法通过寻找不同用户在兴趣分类、主题、实体词和使用行为上的相似性,将一个用户感兴趣的内容推荐给另一个人,这已不是基于用户自己的历史行为,而是基于群体隐性关联之上的协同推荐。就网民整体,算法则基于内容的热度特征,包括全平台的热点文章或不同类别、主题和关键词的热点内容,在“冷启动”阶段对新用户进行初步推荐。
要扭转社交时代以来内容低质化的趋势,需要智能信息分发平台将社会责任意识主动地融入算法设计。算法的市场目标分为中短期目标和长期目标,中短期目标是几个小时、一两天之内用户的兴趣匹配,是为了提升点击率和收藏、转发、评论等行为,而长期目标是实现用户的稳定留存和活跃使用。很多时候,短期目标对实现长期目标并没有帮助,有时候反而起反作用。以标题党现象为例,劣质创作者通过噱头可以吸引用户点击,使点击率虚高,用户可能会留下负面评价,表面上提高了参与度,但却以牺牲用户体验和影响留存为代价,类似含水的点击率和负面的评论率,不符合信息平台的长远利益。
当前智能分发已成为新闻资讯客户端、浏览器等应用的“标配”手段,从行业实践看,居于头部领先位置的App更重视用户的长期留存,更倾向于主动避免内容低质化带来的社会舆论和监管风险。字节跳动公司最早将智能推荐算法应用在信息分发领域,在发展早期也存在内容质量问题和算法偏向市场化的问题,近年通过设置更多元的算法目标,综合分析用户浏览时长、评论情感倾向来打击标题党、煽情化等劣质内容,通过技术模型过滤有害信息和黄赌毒等违法违规内容,并基于正能量信息的模型训练来加强主流价值信息的推荐。例如,信息平台通过对上百万篇网信部门宣传报道指令、党报党刊要闻等正能量信息的人工标注,作为机器学习的模型训练集,模型经过不断优化,对新时代建设等主流价值观内容的识别率准确超过93%。算法对识别出的文章进行1.5-2倍的加权推荐,目前正能量模型识别范围已涵盖凡人善举、行业榜样、知识普惠、公益慈善等众多领域,平台内容日益多元优质,生态越来越有益健康。而一些“信息流”平台则表现出打擦边球的意愿和行动,以对低俗化内容的推荐来实现短期用户量的“冲高”,美女、大尺度、追星、偶像成为内容关键词,这些信息经推荐算法进一步放大了对用户,特别是青少年用户的影响。这已引发社会关切和监管层的关注,已督促改进。但效果尚不明显,需要加大监管力度。
在智能分发时代,要解决内容的低俗化低质化和社会价值弱化问题,要从两方面同时入手、同步加强。一要解决内容生产的低质化问题,压实社交平台、信息平台和创作者的社会责任,提升全体用户的道德素质和网络素养。社交网络极大赋能了用户的创作权、表达权、传播权,一个个用户需求和内容产出汇聚起来,越发影响着网上信息的议程设置和导向,如果此时的内容生态不健康,那么“没有一片雪花是无辜的”,而现实是大多数用户基于原始的本能,倾向于好玩的、娱乐的、低俗的内容。这不同于传统媒体时代,新闻机构有强大的社会影响力,但也负有高度的责任和使命。社交平台、信息平台的海量信息是推荐算法发挥作用的土壤,在个体赋权的同时,用户也需要权责平衡,要以多种方式有效提升普通人的道德素质、媒介素养、算法知识、责任意识和法纪观念,创作者要确保一开始就生产高质量的内容,平台更主动发挥自我监管的责任,才能从源头上建立优质的内容生态。
二要实现社会价值融入算法设计,发挥对内容生产和传播的“奖优罚劣”把关作用,尽快迈向智能管网治网。算法帮助用户以更智能、更高效的方式行使对内容的选择权利,客观上具有对内容创作的引导作用,商业媒体、自媒体等都会研究和分析不同平台的算法特点,谋求更多的内容推荐和传播。如果算法中融入了社会价值,就会促进内容生态向更健康的方向发展。如果说落实平台责任、提升用户素质是为了尽量减少网上的“淤泥”,而对算法的优化则是为了做到“出淤泥而不染”。之前是将价值坚守融入专业媒体人的工作,算法时代要将主流价值观念、信息传播伦理融入工程师的设计目标和流程,由于代码被认为是网络空间的“法律”,这样做可以将制度的宏观原则融入技术的微观建构之中。作者:字节跳动公共政策研究院袁祥王一
信息智能推荐算法是人工智能技术在信息传播领域的应用,它极大地提高了信息的生产和传播效率,带来了传播方式和传播活动的深刻变革,同时也引发了监管部门和用户对这一新技术运用中出现的内容质量和价值观问题、算法黑箱和信息茧房风险等多方面的关切和疑虑。面对这些关切和疑虑,学界进行了持续研究分析,互联网信息平台不断探索问题的解决和风险的防控,推动智能推荐技术的优化创新,以期把握算法的特点、价值和规律,促进人工智能时代信息传播的健康发展、安全发展。
算法不是信息传播中社会价值弱化的根源
媒体进入大众化和市场化时代以来,内容的低俗、低质和娱乐化倾向就开始显现,给主流价值的传播带来挑战。进入信息智能推荐算法时代,这一趋势还在延续,并有了新的表现形式。根本原因在于,大众偏好的内容往往不等同于优质的内容,而用户的需要、市场的要求是媒介技术发展的主要推动力,客观上助长了内容生态的低质化。
从算法设计的初衷看,其本身并不会提倡标题党、煽情和低俗化内容,但由于智能推荐算法要经由网上海量的数据来训练和生成,而在全网已经存在大量低质化信息和大众化审美品位没有得到根本提升的情况下,加之设计算法的工程师没有经过专业的新闻伦理训练,主要关注内容和用户兴趣的匹配度等指标,缺乏社会价值意识,在算法发展的初期也没有将对社会价值的导向要求和对低质信息的把关需要内化为算法的具体规则,在客观上呈现出推荐内容的低质化倾向。如果说在门户网站和社交网络时代,不符合用户偏好的信息还能经由编辑的专业推荐或关系链中其他人的转发推荐而有一定的传播空间,那么在算法时代,不同内容之间的“马太效应”更加凸显,符合偏好的内容可以经由算法的逐级放大有更广泛的影响,而其他内容则很难有生存空间。
算法并不必然助长内容生态的低质化。这要从算法设计的主要特征分析,分为个体、群体、整体三个层次的特征:对个体用户,算法一般通过对内容特征、人的特征、环境特征三个维度指标的分析,在特定人和特定内容之间做出力求精准的匹配。内容特征可能包括领域分类、主题词、实体词、来源、质量评分、相似文章等指标,人的特征包括兴趣、年龄、性别、职业、使用行为、机型等指标,环境特征包括时间、地点、天气和网络类型等。在群体层面,算法通过寻找不同用户在兴趣分类、主题、实体词和使用行为上的相似性,将一个用户感兴趣的内容推荐给另一个人,这已不是基于用户自己的历史行为,而是基于群体隐性关联之上的协同推荐。就网民整体,算法则基于内容的热度特征,包括全平台的热点文章或不同类别、主题和关键词的热点内容,在“冷启动”阶段对新用户进行初步推荐。
要扭转社交时代以来内容低质化的趋势,需要智能信息分发平台将社会责任意识主动地融入算法设计。算法的市场目标分为中短期目标和长期目标,中短期目标是几个小时、一两天之内用户的兴趣匹配,是为了提升点击率和收藏、转发、评论等行为,而长期目标是实现用户的稳定留存和活跃使用。很多时候,短期目标对实现长期目标并没有帮助,有时候反而起反作用。以标题党现象为例,劣质创作者通过噱头可以吸引用户点击,使点击率虚高,用户可能会留下负面评价,表面上提高了参与度,但却以牺牲用户体验和影响留存为代价,类似含水的点击率和负面的评论率,不符合信息平台的长远利益。
当前智能分发已成为新闻资讯客户端、浏览器等应用的“标配”手段,从行业实践看,居于头部领先位置的App更重视用户的长期留存,更倾向于主动避免内容低质化带来的社会舆论和监管风险。字节跳动公司最早将智能推荐算法应用在信息分发领域,在发展早期也存在内容质量问题和算法偏向市场化的问题,近年通过设置更多元的算法目标,综合分析用户浏览时长、评论情感倾向来打击标题党、煽情化等劣质内容,通过技术模型过滤有害信息和黄赌毒等违法违规内容,并基于正能量信息的模型训练来加强主流价值信息的推荐。例如,信息平台通过对上百万篇网信部门宣传报道指令、党报党刊要闻等正能量信息的人工标注,作为机器学习的模型训练集,模型经过不断优化,对新时代建设等主流价值观内容的识别率准确超过93%。算法对识别出的文章进行1.5-2倍的加权推荐,目前正能量模型识别范围已涵盖凡人善举、行业榜样、知识普惠、公益慈善等众多领域,平台内容日益多元优质,生态越来越有益健康。而一些“信息流”平台则表现出打擦边球的意愿和行动,以对低俗化内容的推荐来实现短期用户量的“冲高”,美女、大尺度、追星、偶像成为内容关键词,这些信息经推荐算法进一步放大了对用户,特别是青少年用户的影响。这已引发社会关切和监管层的关注,已督促改进。但效果尚不明显,需要加大监管力度。
在智能分发时代,要解决内容的低俗化低质化和社会价值弱化问题,要从两方面同时入手、同步加强。一要解决内容生产的低质化问题,压实社交平台、信息平台和创作者的社会责任,提升全体用户的道德素质和网络素养。社交网络极大赋能了用户的创作权、表达权、传播权,一个个用户需求和内容产出汇聚起来,越发影响着网上信息的议程设置和导向,如果此时的内容生态不健康,那么“没有一片雪花是无辜的”,而现实是大多数用户基于原始的本能,倾向于好玩的、娱乐的、低俗的内容。这不同于传统媒体时代,新闻机构有强大的社会影响力,但也负有高度的责任和使命。社交平台、信息平台的海量信息是推荐算法发挥作用的土壤,在个体赋权的同时,用户也需要权责平衡,要以多种方式有效提升普通人的道德素质、媒介素养、算法知识、责任意识和法纪观念,创作者要确保一开始就生产高质量的内容,平台更主动发挥自我监管的责任,才能从源头上建立优质的内容生态。
二要实现社会价值融入算法设计,发挥对内容生产和传播的“奖优罚劣”把关作用,尽快迈向智能管网治网。算法帮助用户以更智能、更高效的方式行使对内容的选择权利,客观上具有对内容创作的引导作用,商业媒体、自媒体等都会研究和分析不同平台的算法特点,谋求更多的内容推荐和传播。如果算法中融入了社会价值,就会促进内容生态向更健康的方向发展。如果说落实平台责任、提升用户素质是为了尽量减少网上的“淤泥”,而对算法的优化则是为了做到“出淤泥而不染”。之前是将价值坚守融入专业媒体人的工作,算法时代要将主流价值观念、信息传播伦理融入工程师的设计目标和流程,由于代码被认为是网络空间的“法律”,这样做可以将制度的宏观原则融入技术的微观建构之中。