OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  社区  ›  AI

谁在“喂养”大模型?25% 引言来自新闻业,AI 知识供给链正在重构

 
  fifteen ·  2026-04-09 17:49:29 · 2 次点击  · 0 条评论  

当大模型逐渐成为“默认信息入口”,一个被忽视但至关重要的问题正在浮出水面:这些模型的“知识营养”究竟来自哪里?

一项针对主流 AI 聊天系统的大规模分析,正在为这一问题提供量化答案——同时也把新闻行业重新推到了 AI 价值链的核心位置。


一项覆盖 1500 万条回复的分析:新闻成 AI 重要“语料底座”

公关数据库平台 近期对包括 、、和 在内的主流系统进行了横向评估,样本规模达到 1500 万条生成回复。

核心结论相当直接:约 25% 的 AI 引言可追溯至新闻报道

这并不是简单的“引用”,而更像是一种隐性的知识复用。模型在生成答案时,会大量复刻新闻中的表达方式、事实结构甚至观点框架。这意味着:

  • 新闻媒体不仅是训练语料的重要来源
  • 也是推理阶段“表达模板”的隐性提供者

从 AI 工程角度看,这反映了两个关键机制:
一是训练阶段的高质量文本偏好(curated corpora bias),二是推理阶段对“可信表达结构”的再利用(pattern reuse)。


谁被引用最多?权威媒体与头部记者成为“隐形节点”

从具体来源看,AI 对信息源的偏好呈现明显集中趋势:

  • 全球范围内,位列引用榜首
  • 商业与科技内容方面,紧随其后
  • 英国市场中,成为最常见来源

更有意思的是,记者个体也成为“高频节点”。例如 被统计为全球被 AI 引用最多的记者之一。

这揭示了一个重要趋势:
大模型并非“平均吸收互联网”,而是在强化已有的信息权威结构。

换句话说,AI 并没有打破信息分发的头部效应,反而在某种程度上放大了它。


“AI 可见度”指标出现:内容生产开始面向模型优化

基于这一发现,推出了一项新的指标体系——“AI 可见度”(AI Visibility),并将其划分为三个等级。

这背后其实是一个值得技术社区关注的信号:
内容生产正在从“SEO 优化”迈向“LLM 优化”。

如果说过去十年是围绕搜索引擎排名(Search Ranking)展开,那么未来的内容策略可能会围绕:

  • 是否容易被模型解析(machine-readable clarity)
  • 是否符合模型偏好的表达结构(LLM-friendly phrasing)
  • 是否出现在高权重语料中(training corpus inclusion)

这直接关系到一个新兴领域:AIO(AI Optimization),即针对生成式模型的内容优化策略。


不只是新闻:社区内容同样成为“训练燃料”

另一项针对 “AI 概览”(AI Overviews)的分析则提供了补充视角:

在更开放的问题场景中,社交与社区平台同样占据重要地位:

    • 这些平台的特点在于:
  • 内容非结构化但高度多样

  • 覆盖长尾问题与真实用户经验
  • 更新频率远高于传统媒体

从模型训练角度看,这类数据弥补了新闻语料的“结构化但有限”问题,使模型在面对开放域问题时更具泛化能力。


争议再起:新闻版权与数据使用的边界

25% 的“新闻来源占比”,再次点燃了一个老问题:AI 是否在“消费”新闻行业?

争议核心集中在两个层面:

  1. 训练阶段的数据使用是否构成版权侵权
  2. 推理阶段的“风格复现”是否属于衍生使用

当前行业的几种路径包括:

  • 与媒体签订授权协议(如部分模型厂商与新闻集团合作)
  • 构建可追溯引用机制(attribution layer)
  • 或通过数据过滤降低风险(dataset curation)

但从工程实践来看,完全“去新闻化”的模型几乎不可行——因为新闻本身就是高质量语料的代表。


同期 AI 生态动态:工具链与能力边界的再调整

在“谁喂养 AI”的讨论之外,近期 AI 生态也出现了一些值得关注的变化:

  • 内部开始以“token 消耗”为指标进行工程优化竞赛,反映出推理成本已成为核心约束
  • 开源了支持“视频对象擦除”的 AI 框架,进一步推动多模态生成工具链成熟
  • 则因资源与需求压力,收缩部分第三方工具(如 OpenClaw)的支持范围,显示 Agent 生态仍在探索可持续模式

这些变化共同指向一个现实:
AI 不只是模型能力竞争,更是数据、算力与工具链之间的系统工程博弈。


结语:AI 的“知识供给侧”,正在成为新的基础设施

如果把大模型看作“认知引擎”,那么新闻机构、社区平台与内容生产者,正在构成其背后的“知识供给侧”。

这场变革的关键不在于 AI 是否取代内容生产,而在于:

  • 谁的数据被纳入训练
  • 谁的表达被模型放大
  • 谁在生成链路中获得“默认权威”

对 AI 技术社区而言,这意味着一个新的研究与工程方向正在成形:
如何构建可控、可溯源、可持续的语料供应链。

因为最终决定模型能力上限的,不只是参数规模,还有它“吃进去”的世界。

2 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 12 ms
Developed with Cursor