如何高效的完成中文分词?
2012 年 11 月 30 日
在说分词之前,笔者先来介绍下何为分词:分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。英文中,单词之间是以空格作为自然分界符的,但是中文的分词就复杂多了,要涉及一些算法,对于初学者来说,还是有很多难度的。这里笔者只介绍一种最简单的方式,有兴趣的朋友可以看下,直接上代码:
python实现方式
python实现方式
# -*- coding: utf-8 -*- # flake8: noqa __author__ = 'wukong' import urllib from urllib import urlencode #配置您申请的appKey和openId app_key="***" open_id="***" """ request_url 请求地址 params 请求参数 method 请求方法 """ def request_content(request_url,params,method): params = urlencode(params) if method and method.lower() =="get": f = urllib.urlopen("%s?%s" % (request_url, params)) else: f = urllib.urlopen(request_url, params) content = f.read() print content def main(): domain="http://api.xiaocongjisuan.com/" servlet="data/chinesekeyword/analysis" method="get" request_url=domain+servlet #字典 params ={} params["appKey"]=app_key params["openId"]=open_id #变动部分 params["content"]="我是一个中国人,你知道嘛" request_content(request_url,params,method) if __name__ == '__main__': main()
php实现方式
$value) { $params[$key]=mb_convert_encoding($value, "UTF-8", "GBK"); } $paramstring = http_build_query($params); $content = http_curl($url,$paramstring,true); return $content; } echo main(); ?>
原理主要是调用接口,直接输入一串字符串,然后接口会自动把结果以json或者xml的形式返回,具体文档可以 点我查看
。这种实现方式很简单,省去了大量的开发时间,屏蔽了语言之间的差异性,值得推荐。