围绕 AI 搜索产品的数据使用边界,一场新的法律争议正在发酵。近日在美国遭遇集体诉讼,被指控在用户与其 AI 搜索引擎交互过程中,将对话及相关个人信息共享给 和 (母公司旗下的 Google)。该指控直指当前 AI 应用最核心、也最敏感的环节——用户数据。
对于 AI 技术社区而言,这不仅是一次隐私合规事件,更是对“AI 搜索如何商业化”的根本性拷问。
根据诉讼文件,一旦用户访问 Perplexity 并开始使用其搜索或对话功能,相关页面会加载第三方追踪器,使外部平台能够获取用户与 AI 的交互数据。这其中可能包括:
更具争议的是,即便用户启用了所谓“隐身模式”,数据仍被指存在共享行为。这意味着,用户对隐私保护的预期与实际系统行为之间可能存在显著偏差。
在传统搜索引擎时代,用户查询数据本就被用于广告优化;但在 AI 搜索场景下,问题的性质发生了变化——
用户不再只是输入关键词,而是在进行完整语义表达与多轮推理。
这使得对话数据的价值与敏感性显著提升,也让其成为潜在的“高价值数据资产”。
从工程角度看,这类数据共享通常通过前端与网络层实现,而非直接由模型本身控制:
前端脚本加载
页面加载时引入第三方 JavaScript(如广告或分析 SDK),自动收集用户行为数据。
请求链路附带信息
在向后端发送请求(如 POST /search 或模型 API 调用)时,附带用户标识与上下文。
数据回流与同步
将部分交互数据同步至第三方平台,用于广告建模或用户画像更新。
在 AI 应用中,这一链路变得更加复杂,因为:
这使得“数据边界”变得模糊:哪些属于产品必要数据,哪些属于商业扩展用途,难以一眼分辨。
Perplexity 所面临的问题,本质上也是整个 AI 搜索赛道的共同困境:
而广告模式的前提,正是对用户数据的深入分析与利用。这与 AI 产品“强调隐私、安全与可信”的叙事形成张力。
与 长期依赖广告驱动增长,其技术体系(如用户画像建模、行为预测)天然需要数据输入。当 AI 搜索接入这些生态时,数据流动几乎不可避免。
问题在于:用户是否被充分告知,以及是否拥有选择权。
此次事件对 AI 工程体系提出了更高要求,尤其是在数据治理方面:
仅收集完成任务所必需的数据,避免“默认全量采集”。
将用户对话与广告或分析数据分层存储,避免直接混用。
“隐身模式”不应只是 UI 选项,而应在系统层面真正阻断数据外流。
构建可追踪的数据流路径,使开发者与用户能够理解数据如何被使用。
这些措施,本质上要求 AI 应用从设计之初就将隐私作为核心约束,而非事后补丁。
从更宏观的视角看,这一事件揭示了一个熟悉的循环:
这一路径,与早期搜索引擎和社交媒体的发展轨迹高度相似。但 AI 的不同之处在于,其数据粒度更细、语义更深,潜在风险也更高。
AI 搜索的核心体验,是让用户“像与人交流一样提问”。但一旦这些对话被视为可流通的数据资产,信任基础就会动摇。
Perplexity 面临的诉讼,或许只是一个开端。随着 AI 应用深入日常生活,如何在“能力、成本与隐私”之间找到平衡,将成为整个行业必须回答的问题。