大型语言模型中的Token详解:数据、处理与意义
Token 是大型语言模型 (Large Language Models, LLMs) 处理文本的基本单位。它不是传统意义上的“词”,而是模型将人类可读的文字序列(如句子、段落)切分、编码并最终用于学习和生成文本的离散符号表示。理解 Token 的概念对于深入了解 LLMs 的工作原理、能力边界以及成本核算至关重要。 核心思想:LLMs 不直接处理原始文本,而是将其分解为一系列经过特殊编码的 Token。这些 Token 构成了模型输入和输出的最小单元,并直接影响模型的性能、效率和成本。 一、什么是 Token?在自然语言处理 (NLP) 领域,尤其是在 LLMs 中,Token 是指模型进行训练和推理时所使用的文本片段。它可能是: 一个完整的词 (Word):例如 “cat”, “run”。 一个词的一部分 (Subword):例如 “un”, “believe”, “able” 组合成 “unbelievable”。 一个标点符号 (Punctuation):例如 “.”, “,”, “!”。 一个特殊符号或控制字符 (Special Token):例如 [CLS]...
大型语言模型如何理解人类文字:从Token到语义表征
大型语言模型 (Large Language Models, LLMs) 在处理和生成人类语言方面展现出了前所未有的能力,这引发了一个核心问题:它们是如何“理解”人类文字的?这种理解并非传统意义上的认知或意识,而是通过对海量文本数据中统计模式和语义关联的深度学习,构建出高度复杂的语言表征。 核心思想:LLMs 将人类语言转化为高维数学向量,并通过 Transformer 架构中的注意力机制,捕捉词语、句子乃至篇章间的复杂关联,从而在统计层面模拟人类对语言的理解和生成。 一、基础构建模块:从文本到向量LLMs 的“理解”始于将人类可读的文字转化为机器可处理的数值形式。这一过程主要依赖于分词 (Tokenization) 和词嵌入 (Word Embeddings)。 1.1 分词 (Tokenization)分词是将连续的文本序列切分成有意义的最小单位——Token 的过程。Token 可以是一个词、一个子词 (subword) 甚至一个字符。 词级别分词 (Word-level Tokenization):以空格或标点符号为界,将文本切分为词。简单直观,但词汇量庞大,且...
