V2EX  ›  英汉词典

Tokenization

定义 Definition

Tokenization 是指将某物分割成更小单元(称为"token",即标记/令牌)的过程。在不同领域有不同含义:在自然语言处理中,指将文本拆分为词或子词单元;在金融领域,指将敏感数据(如信用卡号)替换为无意义的替代符号以保护安全;在区块链领域,指将资产转化为数字代币。

发音 Pronunciation

/ˌtoʊ.kən.aɪˈzeɪ.ʃən/

例句 Examples

Tokenization is an essential step in natural language processing.
标记化是自然语言处理中的一个关键步骤。

By applying tokenization to credit card numbers, the payment system ensures that sensitive data is never stored in plain text, significantly reducing the risk of a security breach.
通过对信用卡号进行令牌化处理,支付系统确保敏感数据永远不会以明文形式存储,从而大大降低了安全漏洞的风险。

词源 Etymology

该词由 token 加后缀 -ization 构成。token 源自古英语 tācen,意为"符号、标记",与古高地德语 zeihhan(标记)同源。后缀 -ization 来自拉丁语和希腊语,表示"使之成为……的过程"。整个词的意思即"将事物转化为标记/令牌的过程"。该词在20世纪后期随计算机科学和信息安全的发展而广泛使用。

相关词汇 Related Words

文学与著作引用 Literary References

  • 在 Daniel Jurafsky 和 James H. Martin 的经典教材 Speech and Language Processing 中,tokenization 被作为自然语言处理流程的第一步进行了详细讨论。
  • Christopher Manning 等人所著的 Introduction to Information Retrieval 中,专门用章节阐述了 tokenization 在文本检索中的核心作用。
  • 在 Ashish Vaswani 等人发表的里程碑式论文 Attention Is All You Need(2017)中,子词级别的 tokenization(如 BPE)是 Transformer 模型输入处理的关键环节。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   993 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 60ms · UTC 18:52 · PVG 02:52 · LAX 11:52 · JFK 14:52
♥ Do have faith in what you're doing.