说明
本接口由一米六二提供.
作者Blog:一米六二
如有任何疑问,欢迎mail给:xurenlu@gmail.com
文档:分词,提关键词,正文抽取
function api_version ()
/*** {{{ api_version
* 返回当前API的版本号;
*/
function api_grab_content ($content,$encoding="UTF-8")
/*** {{{ api_grab_content
* @param $content String 要抽取正文的网页内容,完整的HTML源码
* @param $encoding String 网页的编码类型,默认为UTF-8,也可是GB2312
* @return String 要获取的正文内容(HTML的,可能包含一些Div,A等HTML标签)
*/
function api_get_keywords ($text,$limit=5)
/*** {{{ api_get_keywords
* @param $text String 要抽取关键词的文本内容,需要传递UTF-8编码的;GBK编码的请自行转为UTF-8再传进来
* @param $limit Integer 最多提取limit个关键词,默认是5
* @return Array 返回一个由关键词组成的数组;
*/
function api_segments ($text)
/*** {{{ api_segment
* @param $text String 要分词的文本内容;要求UTF-8编码;
* @return Array 分好的词组成的一个数组;
*/
function api_test_comment ($comment){
/*** {{{ api_test_comment
* @param $comment Array 表示一条评论的数组,例如:
* array("ip"=>"10.72.34.22","urls"=>array("http://www.**.com/***1.html","http://www.**.com/***2.html"),"text"=>"请尝试一下淘宝网")
* 其中IP表示发贴者IP
* urls表示出现在正文或其他部分的所有URL,用数组给出;
* text表示评论的正文;
* @return Float 用一个0到1之前的数字来表示可能性; 数字越大,是垃圾评论的可能性越大;
* return 0 means somefield is in the whitelist;
* return 1 means somefield is in the blacklist;
*
* */