时间: 2020-08-23|33次围观|0 条评论

在说分词之前,笔者先来介绍下何为分词:分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。英文中,单词之间是以空格作为自然分界符的,但是中文的分词就复杂多了,要涉及一些算法,对于初学者来说,还是有很多难度的。这里笔者只介绍一种最简单的方式,有兴趣的朋友可以看下,直接上代码:
python实现方式

# -*- coding: utf-8 -*-# flake8: noqa__author__ = 'wukong'import urllibfrom urllib import urlencode#配置您申请的appKey和openIdapp_key="***"open_id="***""""request_url 请求地址params 请求参数method 请求方法"""def request_content(request_url,params,method):    params = urlencode(params)        if method and method.lower() =="get":        f = urllib.urlopen("%s?%s" % (request_url, params))    else:        f = urllib.urlopen(request_url, params)     content = f.read()    print content   def main():        domain="http://api.xiaocongjisuan.com/"    servlet="data/chinesekeyword/analysis"    method="get"    request_url=domain+servlet        #字典    params ={}    params["appKey"]=app_key    params["openId"]=open_id        #变动部分    params["content"]="我是一个中国人,你知道嘛"        request_content(request_url,params,method)    if __name__ == '__main__':    main()

php实现方式

<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/><?php/** * @author  * @copyright 2019 */ header("content-type:text/html;charset=utf-8");         //设置编码 //配置您申请的appKey和openId$app_key = "***";$open_id = "***";/**$url 请求地址$params 请求参数$ispost 请求方法*/function http_curl($url,$params=false,$ispost=false){       $httpInfo = array();    $ch = curl_init();    curl_setopt( $ch, CURLOPT_HTTP_VERSION , CURL_HTTP_VERSION_1_1 );    curl_setopt( $ch, CURLOPT_USERAGENT , "xiaocongjisuan");    curl_setopt( $ch, CURLOPT_CONNECTTIMEOUT , 60 );    curl_setopt( $ch, CURLOPT_TIMEOUT , 60);    curl_setopt( $ch, CURLOPT_RETURNTRANSFER , true );        if( $ispost )    {        curl_setopt( $ch , CURLOPT_POST , true );        curl_setopt( $ch , CURLOPT_POSTFIELDS , $params );        curl_setopt( $ch , CURLOPT_URL , $url );    }    else    {        if($params){            curl_setopt( $ch , CURLOPT_URL , $url.'?'.$params );        }else{            curl_setopt( $ch , CURLOPT_URL , $url);        }    }        $response = curl_exec( $ch );    if ($response === FALSE) {        //echo "cURL Error: " . curl_error($ch);        return false;    }    $httpCode = curl_getinfo( $ch , CURLINFO_HTTP_CODE );    $httpInfo = array_merge( $httpInfo , curl_getinfo( $ch ) );    curl_close( $ch );        return $response;}function main(){        global $app_key;    global $open_id;        $domain="http://api.xiaocongjisuan.com/";    $servlet="data/chinesekeyword/analysis";    $method="get";        $url=$domain."".$servlet;        $params['appKey']=$app_key;    $params['openId']=$open_id;        //变动部分    $params["content"]="我是一个中国人,你知道嘛";        //编码转换    foreach ($params as $key=>$value) {        $params[$key]=mb_convert_encoding($value, "UTF-8", "GBK");    }    $paramstring = http_build_query($params);    $content = http_curl($url,$paramstring,true);        return $content;}echo main();?>

原理主要是调用接口,直接输入一串字符串,然后接口会自动把结果以json或者xml的形式返回,具体文档可以点我查看。这种实现方式很简单,省去了大量的开发时间,屏蔽了语言之间的差异性,值得推荐。

文章转载于:https://www.jianshu.com/p/936fabbd0787

原著是一个有趣的人,若有侵权,请通知删除

本博客所有文章如无特别注明均为原创。
复制或转载请以超链接形式注明转自起风了,原文地址《如何高效的完成中文分词?
   

还没有人抢沙发呢~