说明

本接口由一米六二提供.

作者Blog:一米六二

如有任何疑问,欢迎mail给:xurenlu@gmail.com

文档:分词,提关键词,正文抽取


function api_version ()

/*** {{{ api_version

* 返回当前API的版本号;

*/



function api_grab_content ($content,$encoding="UTF-8")

/*** {{{ api_grab_content

* @param $content String 要抽取正文的网页内容,完整的HTML源码

* @param $encoding String 网页的编码类型,默认为UTF-8,也可是GB2312

* @return String 要获取的正文内容(HTML的,可能包含一些Div,A等HTML标签)

*/



function api_get_keywords ($text,$limit=5)

/*** {{{ api_get_keywords

* @param $text String 要抽取关键词的文本内容,需要传递UTF-8编码的;GBK编码的请自行转为UTF-8再传进来

* @param $limit Integer 最多提取limit个关键词,默认是5

* @return Array 返回一个由关键词组成的数组;

*/



function api_segments ($text)

/*** {{{ api_segment

* @param $text String 要分词的文本内容;要求UTF-8编码;

* @return Array 分好的词组成的一个数组;

*/



function api_test_comment ($comment){

/*** {{{ api_test_comment

* @param $comment Array 表示一条评论的数组,例如:

* array("ip"=>"10.72.34.22","urls"=>array("http://www.**.com/***1.html","http://www.**.com/***2.html"),"text"=>"请尝试一下淘宝网")

* 其中IP表示发贴者IP

* urls表示出现在正文或其他部分的所有URL,用数组给出;

* text表示评论的正文;

* @return Float 用一个0到1之前的数字来表示可能性; 数字越大,是垃圾评论的可能性越大;

* return 0 means somefield is in the whitelist;

* return 1 means somefield is in the blacklist;

*

* */