BPE

Definition / 释义

BPE 是 Byte Pair Encoding（字节对编码） 的缩写：一种常用于自然语言处理（NLP）的子词切分方法，通过反复合并最常见的符号对来学习词表，从而把生僻词拆成更常见的子词单元，降低未登录词问题。

Pronunciation / 发音

/ˌbiː piː ˈiː/

Examples / 例句

We use BPE to tokenize the dataset.
我们用 BPE 来对数据集进行分词（切分为子词）。

By applying BPE, the model can represent rare words as subword units, which often improves translation and generation quality.
通过使用 BPE，模型可以把罕见词表示为子词单元，从而常常提升翻译与生成的效果。

Etymology / 词源

BPE 原本是一种数据压缩领域的算法名称（Byte Pair Encoding），后来被借用到 NLP 中，用来从语料里自动学习“常见片段”的合并规则，进而得到子词词表与切分方式。

Related Words / 相关词

Literary Works / 文学与著作示例

Neural Machine Translation of Rare Words with Subword Units（Sennrich, Haddow & Birch, 2016）——将 BPE 引入机器翻译子词建模的经典论文
Language Models are Unsupervised Multitask Learners（OpenAI, 2019，GPT‑2 技术报告）——描述使用基于 BPE 的子词编码方案
Speech and Language Processing（Jurafsky & Martin，教材/在线草稿版）——在分词与子词建模相关章节中常提及 BPE 等方法