腾讯研究院大模型研究小分队
当前,识别AI生成内容的技术手段均未成熟。如何在潜在风险,治理成本、目标成效之间取得合理平衡成为关键所在。建议小步试错,探寻科学的风险管理方案。
人类原创还是AI生成?
对于AI生成内容在未来全部信息内容中所占比例,不同机构的预测口径有所不同,从20%-90%不等[2]。但不容否认的是:随着生成式AI技术应用的普及,AI生成内容比例正在逐步攀升。有研究显示,仅仅从2023到2024的一年间,包含AI生成内容的网页数量就激增了2848%[3]。与此同时,内容生产模式的变革也在推动着内容治理逻辑的悄然变化,从过去针对内容性质——是否违法有害,扩展至针对内容来源——是否为AI生成。
在AI生成内容早期阶段,大模型厂商从提升模型透明度,支持权利保护等目标出发,尝试开展标识工作。特别在版权方面,尽管对AI生成内容的可版权性仍存在较大争议,但明确其内容性质来源,仍然有助于可能的权利人主张其权益,激励社会公众利用新工具进行内容创作;同时,也有利于明确模型厂商与使用主体之间的权责分界,前者在生成阶段有更多管控能力,而后者需对生成内容的后续传播利用承担更多责任。
政府、社会公众对标识的推动,主要源于AI生成内容对信息传播秩序的潜在风险。AI生成伪造虚假信息的案例时有发生。如合成虚假灾情、新闻扰乱公共秩序[4],利用AI换脸合成虚假色情图片视频侵犯个人名誉等等[5]。有害信息,不论是人类生成,还是AI生成,均可以被传统的内容治理所覆盖,同样可以采取删除、屏蔽等措施最大程度消除其影响。然而,推动内容治理扩展更重要的考虑是:生成式AI大幅提升了内容生产的效率,多模态内容更丰富、交互更逼真,如果一旦被大规模应用于谣言等虚假内容的制造,将可能造成公众对于真实信息的混淆,引发公众对媒体的普遍不信任[6]。尽管到今天,AI生成技术在新闻媒体等内容产业的应用程度并没有此前预想的那么高,也并未看到AI生成内容对媒体传播秩序的实际冲击,但随着AI的持续推进,这种担忧仍然是真实存在的。
区分AI生成内容首先是一个技术问题[7]。目前,识别的技术路径主要包括生成内容检测和来源数据追踪两个方向。前者主要通过寻找数字内容所包含的生成特征来确定内容是否由AI生成或篡改。后者则是通过对数字内容全生命周期的相关信息(是否由AI生成、修改)的独立记录来间接反映数字内容的性质。然而对于AI内容识别,目前尚缺乏成熟可靠的技术方案。
1.内容检测路径
内容检测是最为直观的解决方案。虽然目前在人类的感官层面,AI生成内容与人工创作内容已相差无几,但是在细节层面,仍然存在着可被机器或者技术专家所觉察的特征。
在图像内容中,涉及图像边缘、纹理等细节的处理时,AI生成内容会出现像素级的不一致;涉及比例与对称性、光照与阴影等现实物理特征时,AI生成内容会出现细微的错误;在视频内容中,涉及物体运动轨迹、光照与阴影的变化时,AI生成内容会表现出轻微的不自然、缺乏连贯性或物理规律的异常;同理,在音频、文本等AI生成信息中也都存在类似微小的区别。
然而,即使AI生成内容在众多方面与人工内容存在差异,成熟的、高效且可靠的合成内容检测技术尚不可得。评估AI生成内容检测的技术主要需要考虑以下要素:通用性、可解释性、效率、鲁棒性、计算成本等。在图像领域,已经出现了利用深度学习模型、机器学习模型和统计模型等多种模型进行检测的技术,但是通用性、鲁棒性普遍表现不佳。据报道,使用不同方法在不同的训练和测试子集中获得的准确率仅为从61%到70%。当合成图像经过后处理(如压缩和调整大小),检测准确率将会进一步降低,难以在实践中可靠运作。
2.数据跟踪路径
来源数据跟踪是对“内容性质识别”的间接解决方案。来源数据跟踪并不依赖内容本身,而是通过对于内容的变动(生成、修改等)进行记录,从侧面反映内容的真实性、完整性。当前的来源数据跟踪方法主要包括显式标识和隐式标识。
(1)显式标识
显式标识最大特点是可以直接被人感知,提示告知效果显著,但其实践效果还有待评估。显式标识包括内容标签和可见水印等。内容标签与数字内容分离存在(如在特定场景中的周边提示),无法在生成合成内容的全生命周期都起到区分效果;而可见水印仅限于内容的一部分,容易被裁剪或移除;当可见水印被应用在整个内容的大部分区域,会降低数字内容的质量。
(2)隐式标识
隐式标识是指在生成合成内容或数据中添加的,不能被用户直接感知、但能通过技术手段处理的标识。目前主要有数字水印和元数据记录两种技术路径。
数字水印是机器可读的水印,可通过对内容进行肉眼不可见的扰动来嵌入附加来源信息。基于被扰动方式的不同,可以分为基于LSB的水印、离散余弦变换(DCT)水印、LLM水印等。但数字水印的效果同样存在疑问。复杂算法生成的水印需要大量的计算资源来读取,成本高效率低;简单算法生成的水印容易被去除和篡改,安全性不足。
元数据记录则是另一种方法,通过将内容变动生成的元数据独立储存在与数字内容相同的文件中,用以提供于其内容属性、来源等信息。基于独立储存的特征,这种方法虽然相较之下效率更高,但也存在明显缺陷。首先,元数据需要长时间存储,还需要投入资源进行管理和查询优化,增加了成本;其次,元数据原则上可以被任意的添加、修改、抹除,很难保证完整性与真实性。虽可以通过数字指纹或签名技术来提升安全性,但这也会带来额外成本;再次,规避元数据记录的门槛较低。用户可以通过截图或外部设备拍摄等非下载方式绕过元数据记录。
不论是数字水印还是元数据,隐私标识面临的最大挑战是其技术目标的实现对治理生态提出了很高要求。考虑到网络传播链路的复杂性,写入隐式标识,并进行读取、验证,最终对用户进行提示,完成这一闭环需要生态主体的高度协作,兼顾算法的保密性与跨平台的互通识别。若缺乏成熟的技术和治理规范,不仅不能实现来源辨别的目的,且可能会加剧欺骗或混淆的风险。
在全球范围内,人工智能企业、大型网络平台基于透明度、可信赖等原则,围绕AI生成内容的标识,已自发展开探索。大模型方面,ChatGPT生成的图像内容使用元数据记录进行标识[8];Meta AI创建或编辑的图像包含可见水印[9]。国内企业开发的人工智能系统如元宝、豆包、文小言等都均已其生成的图像添加显式标识。互联网平台方面, Meta规定用户需要对所分享的包含经数字手段(如使用AI)生成或修改的逼真视频或拟真音频的内容进行标识[10],同时,Meta也正在进行相关尝试,如检测到的图像是由平台旗下AI生成,将为其添加标识。[11]X对于利用AI虚构或者模拟真实人物的媒体内容,或者通过AI改变媒体内容从而扭曲其含义的媒体内容会添加显式标识以提供额外的背景信息或者直接删除该内容[12]。国内平台如小红书、微博等也已上线用户自主声明功能[13]。
国内外的探索实践,体现了以下共同点:其一、首先选择在图像、视频等最可能产生混淆误认的领域进行尝试,大模型企业在生成阶段对内容进行显性标识;其二、传播平台对用户进行提示,在用户分享利用AI生成的逼真内容时主动声明,同时基于元数据等技术探索标识路径。此外,国外更多体现为企业自发形成产业联盟,推进开放的技术标准的形成[14]。
基于动态风险的治理探索
AI生成内容带来了与以往完全不同的风险,推动着各方尝试明确AI生成与人类创造的边界。然而,针对AI生成内容的标识,目前尚未形成成熟的技术解决方案。总体上,出于“防患于未然”的风险预防思路,标识工作处于一种自发探索的状态。与之对应的,在全球治理规则层面,目前大多是一些笼统的原则性要求,对于标识的实现方式尚无细致规定,从而为实践探索留有了较大空间。
1.在不断试错验证的过程中,探寻合理的风险管理方案
建议采取开放推荐的方式,鼓励相关主体积极探索包括内容检测、数字水印等在内的多种技术方式。对于元数据的跨主体读取与验证方式,通过AB实验等方式不断完善,在得到普遍实践认可的技术框架之后,再逐步进行扩展。对于标识的反删除反篡改的攻防,更是一个“魔高一尺,道高一丈”的过程,需要行业各主体进行协同应对。此外,公众对标识的了解与应用痛点,也决定了标识工作将会在动态中寻求最佳实践。
2.基于场景区分不同主体的治理角色
对于AI生成内容,AI生成技术的提供者与部署者具有明确的主体角色差异,需适配不同规则。例如:欧盟《人工智能法》依据主体角色的不同,相应建立了不同的标识规范。其第50条2款规定AI系统的提供者应当实现其输出内容可以以机器可读的格式标记;第4款规定生成或操纵构成深度伪造的图像、音频或视频内容的AI系统的部署者应当披露该内容是人为生成或操纵的。可见,前者更强调技术的“开发者”重在提供“机器可读”的技术方案,“部署者”重在对深度伪造的内容“披露”其性质。
3.避免大而全,将治理资源聚焦在“真正的风险领域”
全面标识听起来“大而美好”,但实质上却可能有碍于标识目的的实现,让真正具有风险的内容融入普遍被标识的信息海洋,易使公众信息过载,控制风险的作用大打折扣,在此背景下,可考虑限定标识的范围。
一是在领域上的限定。鉴于AI生成技术的通用性,在信息传播领域之外有大量的生成应用(如满足模型训练的数据合成、服务于加工润色目的的AI生成,如地图、游戏渲染;B端的AI办公场景等等),在这些内容传播风险较小的领域,标识工作并不具有优先紧迫性,或可以通过负担较小的方式探索;
二是对标识内容上的限定。将有限资源集中于风险较高的领域。正如我国《互联网信息服务算法推荐管理规定》所采取的思路——“对于导致公众混淆或者误认的,应当在生成或者编辑的信息内容的合理位置、区域进行显著标识,向公众提示深度合成情况。这也反映了当前国内外标识实践的共识。正如Meta的内容政策:“当我们确信部分AI内容不会违反我们的政策时,我们会在审核队列中删除这些内容。这使得我们的审核资源可以更多的关注于那些可能违反我们规则的内容。”
过度标识的负外部性已有所浮现。据报道,仅通过图像编辑软件的AI功能对照片进行除尘、去斑等微小的操作就会导致照片上传到社交平台时被标记为“AI生成”[15]。此类标识可能会引发“反向混淆”,让公众将人工创作内容误认为“生成合成内容”,对于知识产权、人格权益保护乃至公共信任产生不利的影响。为避免过度标识,还需重点探索“标识的例外规则”。
4.培养公众在AI时代的“信息素养”
多么完美的识别规则,最终也只能起到辅助判断的作用,无法替代公众对信息内容作最后的真伪判断,个人永远是自己“选择相信内容”的最终把关人。信息爆炸的时代,越需提升对信息真实与否的敏感度。正如网络原住民比他们的上一辈,会更加谨慎地审视网络信息一样,在AI时代,人们更要告别“无图无真相”的判断准则。以标识规则为契机,培养公众面对网络内容的理性判断,形成AI时代个人“信息素养”,是内容治理中更为关键的一环。
注释来源:
原文始发于微信公众号(腾讯研究院):AI生成的内容可以被区分出来么?