当前比较常见的中文分词

作者:xurenlu@gmail.com

本文首地发址: http://codeany/codes.14.show.dangqian-bijiao-changjian-de-zhongwen-fenci.shtml

scws:

        主页是http://www.ftphp.com/scws/
点是:准确率比较高,目前新版的已经支持自定义词库功能,词库是带词性和词频的,提供关键词提取功能.提供c版api和php扩展;

        缺点是:有时会有内存溢出等;不适合写长时间运行的daemon程序;

libmmseg:

       主页是http://www.coreseek.com/opensource/mmseg/
       作者李沫南,是sphinx开源项目的重要贡献者;
       提供python扩展;程序稳定性好于scws;

mmseg-cpp:

 

        主页: http://code.google.com/p/pymmseg-cpp/
       作者主页:http://lifegoo.pluskid.org/

        也是不错的作品,使用方便,有python扩展,分词快;