谁在“喂养”大模型？25% 引言来自新闻业，AI 知识供给链正在重构

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

当大模型逐渐成为“默认信息入口”，一个被忽视但至关重要的问题正在浮出水面：这些模型的“知识营养”究竟来自哪里？

一项针对主流 AI 聊天系统的大规模分析，正在为这一问题提供量化答案——同时也把新闻行业重新推到了 AI 价值链的核心位置。

一项覆盖 1500 万条回复的分析：新闻成 AI 重要“语料底座”

公关数据库平台近期对包括、、和在内的主流系统进行了横向评估，样本规模达到 1500 万条生成回复。

核心结论相当直接：约 25% 的 AI 引言可追溯至新闻报道。

这并不是简单的“引用”，而更像是一种隐性的知识复用。模型在生成答案时，会大量复刻新闻中的表达方式、事实结构甚至观点框架。这意味着：

新闻媒体不仅是训练语料的重要来源
也是推理阶段“表达模板”的隐性提供者

从 AI 工程角度看，这反映了两个关键机制：
一是训练阶段的高质量文本偏好（curated corpora bias），二是推理阶段对“可信表达结构”的再利用（pattern reuse）。

谁被引用最多？权威媒体与头部记者成为“隐形节点”

从具体来源看，AI 对信息源的偏好呈现明显集中趋势：

全球范围内，位列引用榜首
商业与科技内容方面，紧随其后
英国市场中，成为最常见来源

更有意思的是，记者个体也成为“高频节点”。例如被统计为全球被 AI 引用最多的记者之一。

这揭示了一个重要趋势：
大模型并非“平均吸收互联网”，而是在强化已有的信息权威结构。

换句话说，AI 并没有打破信息分发的头部效应，反而在某种程度上放大了它。

“AI 可见度”指标出现：内容生产开始面向模型优化

基于这一发现，推出了一项新的指标体系——“AI 可见度”（AI Visibility），并将其划分为三个等级。

这背后其实是一个值得技术社区关注的信号：
内容生产正在从“SEO 优化”迈向“LLM 优化”。

如果说过去十年是围绕搜索引擎排名（Search Ranking）展开，那么未来的内容策略可能会围绕：

是否容易被模型解析（machine-readable clarity）
是否符合模型偏好的表达结构（LLM-friendly phrasing）
是否出现在高权重语料中（training corpus inclusion）

这直接关系到一个新兴领域：AIO（AI Optimization），即针对生成式模型的内容优化策略。

不只是新闻：社区内容同样成为“训练燃料”

另一项针对 “AI 概览”（AI Overviews）的分析则提供了补充视角：

在更开放的问题场景中，社交与社区平台同样占据重要地位：

- 这些平台的特点在于：
内容非结构化但高度多样
覆盖长尾问题与真实用户经验
更新频率远高于传统媒体

从模型训练角度看，这类数据弥补了新闻语料的“结构化但有限”问题，使模型在面对开放域问题时更具泛化能力。

争议再起：新闻版权与数据使用的边界

25% 的“新闻来源占比”，再次点燃了一个老问题：AI 是否在“消费”新闻行业？

争议核心集中在两个层面：

训练阶段的数据使用是否构成版权侵权
推理阶段的“风格复现”是否属于衍生使用

当前行业的几种路径包括：

与媒体签订授权协议（如部分模型厂商与新闻集团合作）
构建可追溯引用机制（attribution layer）
或通过数据过滤降低风险（dataset curation）

但从工程实践来看，完全“去新闻化”的模型几乎不可行——因为新闻本身就是高质量语料的代表。

同期 AI 生态动态：工具链与能力边界的再调整

在“谁喂养 AI”的讨论之外，近期 AI 生态也出现了一些值得关注的变化：

内部开始以“token 消耗”为指标进行工程优化竞赛，反映出推理成本已成为核心约束
开源了支持“视频对象擦除”的 AI 框架，进一步推动多模态生成工具链成熟
则因资源与需求压力，收缩部分第三方工具（如 OpenClaw）的支持范围，显示 Agent 生态仍在探索可持续模式

这些变化共同指向一个现实：
AI 不只是模型能力竞争，更是数据、算力与工具链之间的系统工程博弈。

结语：AI 的“知识供给侧”，正在成为新的基础设施

如果把大模型看作“认知引擎”，那么新闻机构、社区平台与内容生产者，正在构成其背后的“知识供给侧”。

这场变革的关键不在于 AI 是否取代内容生产，而在于：

谁的数据被纳入训练
谁的表达被模型放大
谁在生成链路中获得“默认权威”

对 AI 技术社区而言，这意味着一个新的研究与工程方向正在成形：
如何构建可控、可溯源、可持续的语料供应链。

因为最终决定模型能力上限的，不只是参数规模，还有它“吃进去”的世界。

56 次点击 ∙ 0 人收藏

登录后收藏

0 条回复