除了中文分词,英文有没有相关分词的 API 或者开源软件?

2017 年 2 月 15 日
 Reign

英文的分词也不只是用空格分开那么简单,比如: The golden gate bridge is located in San Francisco ,这句话如果简单的用空格 explode 的话,最终会将“ golden gate bridge ”以及“ San Francisco ”给分拆开来而失去原有的意义,有没有这方面英文词组相关的分词 api 或者开源程序?

5197 次点击
所在节点    程序员
13 条回复
knightdf
2017 年 2 月 15 日
你想多了,这已经不是简单的分词了,是 entity extraction 了
ligyxy
2017 年 2 月 15 日
second order phrase model
yangyaofei
2017 年 2 月 15 日
@knightdf 这不是 n-gram 么……
neurocomputing
2017 年 2 月 15 日
stanford 有开源的 NLP 包
slixurd
2017 年 2 月 15 日
所以一般英文处理的时候会保留位置信息...
knightdf
2017 年 2 月 15 日
@yangyaofei n-gram 只是方法
knightdf
2017 年 2 月 15 日
@knightdf 我说 extraction 也不对,应该叫 recognition
cszeus
2017 年 2 月 16 日
是想做 named entity recognition 还是 tokenization?
cszeus
2017 年 2 月 16 日
反正可以看看 standford 的 http://nlp.stanford.edu/software/CRF-NER.shtml#Starting 或者 NLTK
freeman
2017 年 2 月 16 日
还有那种没有空格的,比如: goldnecklace(gold necklace)
holajamc
2017 年 2 月 16 日
斯坦福的 CoreNLP ,如果是 Java 程序员的话可以直接用,也可以配合 Python NLTK ,另外连续相同的单词首字母大写可以划分为一个词咩(逃
liyu4
2017 年 2 月 16 日
wocao ,英文分词你还要怎么样!
BarryLu
2020 年 11 月 16 日
您好!请问一下,这个分词需求您后来用什么解决了?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/340752

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX