网创优客建站品牌官网
为成都网站建设公司企业提供高品质网站建设
热线:028-86922220
成都专业网站建设公司

定制建站费用3500元

符合中小企业对网站设计、功能常规化式的企业展示型网站建设

成都品牌网站建设

品牌网站建设费用6000元

本套餐主要针对企业品牌型网站、中高端设计、前端互动体验...

成都商城网站建设

商城网站建设费用8000元

商城网站建设因基本功能的需求不同费用上面也有很大的差别...

成都微信网站建设

手机微信网站建站3000元

手机微信网站开发、微信官网、微信商城网站...

建站知识

当前位置:首页 > 建站知识

盲反馈检索系统实验记录三

计算tf/idf

超过10年行业经验,技术领先,服务至上的经营模式,全靠网络和口碑获得客户,为自己降低成本,也就是为客户降低成本。到目前业务范围包括了:网站制作、成都网站制作,成都网站推广,成都网站优化,整体网络托管,微信小程序定制开发,微信开发,重庆APP软件开发,同时也可以让客户的网站和网络营销和我们一样获得订单和生意!

在使用fileStr获取新闻的内容和长度后,我们就可以计算他们的tf和idf:

//计算tf\idf
static public function tf_df($seg){
    $str=self::fileStr();
    $file_dir=self::fileDir(TEXT_PATH);
    $df=array();
    for($i=0;$i

该方法传递的参数$seg就是前面提到若的使用segment分词方法返回的结果。这里使用的是它计算出来的['word']和['times']。

第一个for双重循环:第一个for循环得到每一篇文档所有词的信息,第二个for循环取出这篇文档每个词的信息,比如$seg[$i][$j]['times']是一个词出现的次数,再除以这篇文档的长度$str[$i]['len']就可以得到词频。

第二个for双重循环:大概意思就是得到该文档集的文档频率df后,使用公式idf=log(N/df),N表示文档集总数,df就是所计算词的文档频率,最后得出idf(逆文档频率)。

新创建一个用来测试的php文件test.php,代码如下

在浏览器中运行(这个过程大概花费20s),查看源代码:

盲反馈检索系统实验记录三

盲反馈检索系统实验记录三

计算特征向量

万事俱备,只欠东风。到这里,我们已经得到了所有词项的tf和idf,他们的权重=tf*idf.在这里我们又会使用到之前已经创建好的词表(保存在dic.txt),词表中的每一个词代表空间中的一个维度,dic.txt中有1000多个词,因而空间中就有1000多维。我们把每篇文档的词项都映射到这1000多个维度里,每个维度的值表示该词项的权重,若该篇文档不存在词典中出现的词,则对应的维度值设为0.(这里利用的是向量空间模型的知识)。

计算特征向量的代码封装在方法vsm中:

//特征向量,并写入文件(tf/idf以及存在seg中)
static public function vsm($seg){
    $file_dir=self::fileDir(TEXT_PATH);
    $dic_str=file_get_contents('dic.txt');
    $dic_arr=explode(',',$dic_str);
                                                                                                       
    $vsm_arr=array();   //向量空间
    for($i=0;$i

该方法把对应文档的特征向量计算出来后,把他们保存在目录名为vsm的目录中,文件名和它们的新闻文档文件名相同。修改test.php:

即可运行,在系统目录的vsm下可以看到多出了10个txt文件,里边的内容保存的分别是对应文档的特征向量。

附件:http://down.51cto.com/data/2364246

标题名称:盲反馈检索系统实验记录三
URL链接:http://bjjierui.cn/article/gccgee.html

其他资讯