“Data extraction”指从数据源(如数据库、网页、PDF、日志、API、表格等)中获取并提取所需数据的过程,通常是数据分析、ETL(抽取-转换-加载)或数据挖掘的第一步。(在某些语境下也可指从非结构化内容中“抽取信息/字段”的信息抽取。)
/ˈdeɪtə ɪkˈstrækʃən/(亦常见 /ˈdætə ɪkˈstrækʃən/)
We automated data extraction from the website using an API.
我们通过 API 实现了从该网站自动抽取数据。
Accurate data extraction is essential for building a reliable analytics pipeline, especially when the source contains messy or inconsistent fields.
准确的数据抽取对构建可靠的分析流水线至关重要,尤其当数据源字段杂乱或不一致时。
“Data”源自拉丁语 datum(“给出的东西”),在现代英语中多指信息与事实记录;“extraction”来自拉丁语 extrahere(ex- “向外” + trahere “拉”),本义为“抽出、提取”。组合起来即“把需要的数据从来源中抽取出来”。