当大模型逐渐成为“默认信息入口”,一个被忽视但至关重要的问题正在浮出水面:这些模型的“知识营养”究竟来自哪里?
一项针对主流 AI 聊天系统的大规模分析,正在为这一问题提供量化答案——同时也把新闻行业重新推到了 AI 价值链的核心位置。
公关数据库平台 近期对包括 、、和 在内的主流系统进行了横向评估,样本规模达到 1500 万条生成回复。
核心结论相当直接:约 25% 的 AI 引言可追溯至新闻报道。
这并不是简单的“引用”,而更像是一种隐性的知识复用。模型在生成答案时,会大量复刻新闻中的表达方式、事实结构甚至观点框架。这意味着:
从 AI 工程角度看,这反映了两个关键机制:
一是训练阶段的高质量文本偏好(curated corpora bias),二是推理阶段对“可信表达结构”的再利用(pattern reuse)。
从具体来源看,AI 对信息源的偏好呈现明显集中趋势:
更有意思的是,记者个体也成为“高频节点”。例如 被统计为全球被 AI 引用最多的记者之一。
这揭示了一个重要趋势:
大模型并非“平均吸收互联网”,而是在强化已有的信息权威结构。
换句话说,AI 并没有打破信息分发的头部效应,反而在某种程度上放大了它。
基于这一发现,推出了一项新的指标体系——“AI 可见度”(AI Visibility),并将其划分为三个等级。
这背后其实是一个值得技术社区关注的信号:
内容生产正在从“SEO 优化”迈向“LLM 优化”。
如果说过去十年是围绕搜索引擎排名(Search Ranking)展开,那么未来的内容策略可能会围绕:
这直接关系到一个新兴领域:AIO(AI Optimization),即针对生成式模型的内容优化策略。
另一项针对 “AI 概览”(AI Overviews)的分析则提供了补充视角:
在更开放的问题场景中,社交与社区平台同样占据重要地位:
内容非结构化但高度多样
从模型训练角度看,这类数据弥补了新闻语料的“结构化但有限”问题,使模型在面对开放域问题时更具泛化能力。
25% 的“新闻来源占比”,再次点燃了一个老问题:AI 是否在“消费”新闻行业?
争议核心集中在两个层面:
当前行业的几种路径包括:
但从工程实践来看,完全“去新闻化”的模型几乎不可行——因为新闻本身就是高质量语料的代表。
在“谁喂养 AI”的讨论之外,近期 AI 生态也出现了一些值得关注的变化:
这些变化共同指向一个现实:
AI 不只是模型能力竞争,更是数据、算力与工具链之间的系统工程博弈。
如果把大模型看作“认知引擎”,那么新闻机构、社区平台与内容生产者,正在构成其背后的“知识供给侧”。
这场变革的关键不在于 AI 是否取代内容生产,而在于:
对 AI 技术社区而言,这意味着一个新的研究与工程方向正在成形:
如何构建可控、可溯源、可持续的语料供应链。
因为最终决定模型能力上限的,不只是参数规模,还有它“吃进去”的世界。