一个纯 PHP 的分词

2017 年 12 月 27 日
 tanszhe

VicWord 一个纯 php 的分词

(顺便安利一下:本人从帝都回来,打算找个兼职 。如果你们正好缺个前端 或者 php 后端 不妨联系我。微信:dongxi828 )

star 地址 https://github.com/lizhichao/VicWord

分词说明

$fc = new VicWord('igb');
$arr = $fc->getWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');
//北京大学|生喝|进口|红酒|,|在|北京大学|生活区|喝|进口|红酒
//$arr 是一个数组 每个单元的结构[词语,词语位置,词性,这个词语是否包含在词典中] 这里只值列出了词语

$arr =  $fc->getShortWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');
//北京|大学|生喝|进口|红酒|,|在|北京|大学|生活|区喝|进口|红酒

$arr = $fc->getAutoWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');
//北京|大学生|喝|进口|红酒|,|在|北京大学|生活区|喝|进口|红酒

//准确度对比
//q 的分词和百度的分 http://nlp.qq.com/semantic.cgi#page2 http://ai.baidu.com/tech/nlp/lexical

分词速度

机器阿里云 Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHz
getWord 每秒 140w 字
getShortWord 每秒 138w 字
getAutoWord 每秒 40w 字
测试文本在百度百科拷贝的一段 5000 字的文本

制作词库

demo

demo

6853 次点击
所在节点    分享创造
39 条回复
dishuibaby
2017 年 12 月 27 日
mark 一下
server
2017 年 12 月 27 日
1024,😀
qianmeng
2017 年 12 月 27 日
这个很厉害啊
eseeker
2017 年 12 月 27 日
好东西要赞一个。谢谢分享!
gdtv
2017 年 12 月 27 日
感谢,正好需要
gdtv
2017 年 12 月 27 日
试了一下
广东省广州市解放路 24 号越秀公园
结果:
广东省,广州市,解放,路 24 号越秀,公园

感谢楼主,正好可以用到我现在的项目里。
assad
2017 年 12 月 27 日
赞一个
gdtv
2017 年 12 月 27 日
能否区分词性,例如“的、地、得”是助词,“红酒”是名词
tanszhe
2017 年 12 月 27 日
@gdtv 补充在词库就能支持了 目前的词库没有词性
babytomas
2017 年 12 月 27 日
可以配合你这个做本地翻译引擎耶。
predator
2017 年 12 月 27 日
棒棒哒非常好
ORZRRR
2017 年 12 月 27 日
支持下,这玩意核心在词典,希望大家可以开源一起维护完善词典?已经人工给一个星星
LeungJZ
2017 年 12 月 27 日
支持支持。已 star。
kn007
2017 年 12 月 27 日
nice,支持
x86
2017 年 12 月 27 日
好东西
Sornets
2017 年 12 月 27 日
厉害了,star+1
lyz745704689
2017 年 12 月 27 日
有一个个人项目,目前安卓已经上架,ios 在开发中,不知道楼主有兴趣没有,已经加您微信了
rebill
2017 年 12 月 27 日
看来切词的准确性在于词典
pkm
2017 年 12 月 27 日
结婚|的|和尚|未结婚的
pkm
2017 年 12 月 27 日
楼主棒棒哒,细粒度挺准确的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/417970

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX