BPE 是 Byte Pair Encoding(字节对编码) 的缩写:一种常用于自然语言处理(NLP)的子词切分方法,通过反复合并最常见的符号对来学习词表,从而把生僻词拆成更常见的子词单元,降低未登录词问题。
/ˌbiː piː ˈiː/
We use BPE to tokenize the dataset.
我们用 BPE 来对数据集进行分词(切分为子词)。
By applying BPE, the model can represent rare words as subword units, which often improves translation and generation quality.
通过使用 BPE,模型可以把罕见词表示为子词单元,从而常常提升翻译与生成的效果。
BPE 原本是一种数据压缩领域的算法名称(Byte Pair Encoding),后来被借用到 NLP 中,用来从语料里自动学习“常见片段”的合并规则,进而得到子词词表与切分方式。