当前比较常见的中文分词
作者:xurenlu@gmail.com
scws:
主页是http://www.ftphp.com/scws/
特点是:准确率比较高,目前新版的已经支持自定义词库功能,词库是带词性和词频的,提供关键词提取功能.提供c版api和php扩展;
缺点是:有时会有内存溢出等;不适合写长时间运行的daemon程序;
libmmseg:
主页是http://www.coreseek.com/opensource/mmseg/
作者李沫南,是sphinx开源项目的重要贡献者;
提供python扩展;程序稳定性好于scws;
mmseg-cpp:
主页: http://code.google.com/p/pymmseg-cpp/
作者主页:http://lifegoo.pluskid.org/
也是不错的作品,使用方便,有python扩展,分词快;