摘要:
传统计算科学奠基于确定性逻辑,擅长处理结构化、离散的“硬数据”。然而,人类世界的大多数信息——语言、图像、意图——均具有高度的“模糊性”(Ambiguity)和上下文依赖性。以ChatGPT为代表的大型语言模型(LLMs)的崛起,标志着计算范式从符号主义(Symbolic AI)向连接主义(Connectionism)的彻底跨越。本文将深入拆解大模型如何利用语义嵌入(Embeddings)、自注意力机制(Self-Attention)以及概率预测,将模糊的非结构化信息转化为确定性的结构化输出,从而为自动化领域打开了前所未有的想象空间。
在通用大模型出现之前,传统的IT系统本质上是“确定性状态机”。程序员通过 XPath、正则表达式、SQL 语句编写硬编码规则来处理数据。这种方式在处理诸如银行交易记录等“硬数据”时效率极高,但在面对人类语言时则显得极其脆弱。
传统方法处理“模糊信息”的痛点在于:任何规则的微小边界变动,都会导致系统的崩溃。 例如,一个基于 CSS 选择器的网页爬虫,一旦网站开发者修改了一个 div 的类名,整个提取逻辑即刻失效。这种基于死板状态匹配的逻辑,根本无法应对真实世界中信息表达的多样性。
大模型处理模糊信息的首要核心,是将离散的符号(如单词、HTML 标签)转化为连续的数学表达,即语义嵌入(Embeddings)。
在 LLM 的世界里,一个单词不再是“ recursion ”这几个字母的组合,而是位于几千维高维空间中的一个向量(Vector)。
在这个向量空间中:
- 语义相近的词(如“递归”与“循环”),其向量距离极近。
- 模糊的语境被量化为向量在不同维度上的分量。
所有的单词、短语乃至整个段落,都被映射到一个连续的潜在空间。模糊性在传统系统中意味着“无法匹配”,而在潜在空间中,它意味着一个特定的向量区域。大模型不是在做“是与否”的判断,而是在计算“可能是什么”的概率距离。
如果说嵌入是将静态的词义数学化,那么自注意力机制(Self-Attention)则是赋予了模型动态理解语境的能力,这是去模糊的关键。
自注意力机制允许模型在处理一个单词时,同时“注视”句子中的所有其他单词,并根据它们的相关性分配不同的权重(Attention Weights)。
以单词 Recursion 为例:
- 如果语境中出现了 code, function, stack 等词,自注意力机制会极大地增加这些词对 Recursion 的权重,使其向量表达向“计算机算法”的语义区域倾斜。
- 如果语境中出现了 cook, stir, fry,模型则会动态调整权重,使其理解为一种“重复烹饪动作”的类比。
这种机制彻底改变了网页数据提取的范式。面对一个 HTML 页面,AI 不再寻找确定的标签路径,而是通过自注意力机制阅读整个页面的语义。即便是商品价格,无论是放在 <span> 还是 <div> 里,无论是标注为 "$10" 还是 "Ten Dollars",大模型都能通过上下文(如附近有 "Price:" 或 "Buy Now")将其精准识别出来。
模糊处理能力的飞跃,导致了两个关键的技术性突破,这就是您提到的例子背后的硬核逻辑。
以前的例句库是静态预存的,无法适应用户的特定需求。
* 硬核原理解析: 大模型在生成例句时,不仅根据该单词在预训练数据中的概率分布,还可以接收额外的参数化输入(Constraint Vector)(如“用户的职业是程序员”)。模型会将这个“程序员”的向量特征注入到解碼过程中,使其生成与 code, bug 相关的概率大幅提升。这让例句生成从“检索”变成了基于语境的动态合成。
这本质上是从语义流(Semantic Stream)到结构化模式(Structured Schema)的映射。
* 硬核原理解析: 这是一个零样本(Zero-Shot)推理任务。AI 接收一个 HTML 文本向量流,并接收一个 JSON Schema 的结构要求(如要求包含 name, price 两个字段)。模型利用自注意力机制在 HTML 的连续潜在空间中定位这些语义块,然后利用解碼器(Decoder)将其“翻译”成符合 JSON 语法要求的离散字符串。由于模型理解的是语义而非标签,网页结构的模糊变化对提取结果的影响被降到了最低。
<div>$99</div> 与上文的 Product Name 在语义张量上的邻近性。它提取的是“意图”,而非“路径”。为了启迪产品思路,我们不仅要看 AI 做了什么,更要看它消灭了哪些原本因为“太费劲”而放弃的需求:
从这些场景中,我们可以提炼出一个全新的产品设计公式:
“模糊需求 + 语义理解 + 确定性输出 = 下一代交互范式”
开发者不再需要为“多样性”编写复杂的逻辑,而应该专注于定义“意图(Intent)”和“约束(Constraints)”。正如那句科技圈的名言:当语义可以被计算,世界上就不再有“非结构化”的数据,只有“尚未被理解”的数据。