菜鸟国际电子游戏首页 > 文章中心 > 正文

php jieba (结巴)中文分词-电子游戏app下载


#此部分为通用加载  

//设置php运行占用内存(最少500m)

ini_set('memory_limit', '1024m');

#下载zip压缩文件

require_once "/path/to/your/vendor/multi-array/multiarray.php";
require_once "/path/to/your/vendor/multi-array/factory/multiarrayfactory.php";
require_once "/path/to/your/class/jieba.php";
require_once "/path/to/your/class/finalseg.php"

use fukuball\jieba\jieba;
use fukuball\jieba\finalseg;
jieba::init();
finalseg::init();



示例:

echo "
";
$seg_list = jieba::cut("结巴中文分词:做最好的中文分词!");
var_dump($seg_list);
echo "
";
$seg_list = jieba::cut("结巴分词-全模式分词", true);
var_dump($seg_list); #全模式
echo "
";
$seg_list = jieba::cut("默认就是精确模式", false);
var_dump($seg_list); #默认精确模式
echo "
";
$seg_list = jieba::cutforsearch("搜索引擎模式,会将这句话分词成功类似搜索引擎的模式"); #搜索引擎模式
var_dump($seg_list);
echo "
";


##关键词提取  

require_once "../src/class/jiebaanalyse.php";
use fukuball\jieba\jiebaanalyse;

jiebaanalyse::init();
//越小精确度越高|提取的关键词越准|默认20
$top_k = 10;
//读取luric.txt文件中的中文字符,进行提取
$content = file_get_contents("../src/dict/lyric.txt", "r");
$tags = jiebaanalyse::extracttags($content, $top_k);
var_dump($tags);


##导入自定义的词库 

jieba::loaduserdict("../src/dict/user_dict.txt");//导入自定义的词库

//接下来的词库中就会有你导入的词库
$seg_list = jieba::cut("结巴中文分词:做最好的中文分词!");
var_dump($seg_list);


##导入自定义词库并提取关键词 

//实例化:第一个参数表示开启测试模式   dict表示读取small词库,如果是繁体需要改成big
jieba::init(array('mode'=>'test','dict'=>'small'));
finalseg::init();
jiebaanalyse::init();
jieba::loaduserdict("../src/dict/user_dict.txt");//导入自定义的词语
//越小精确度又高|提取的关键词越准|默认20
$top_k = 10;
$content = file_get_contents("../src/dict/lyric.txt", "r");
//这里是定义截断性比重占比分析
jiebaanalyse::setstopwords('../src/dict/stop_words.txt');
//调用方法分析词语的占比
$tags = jiebaanalyse::extracttags($content, $top_k);
echo "
";
var_dump($tags);





转载请注明出处:

0

相关文章