【编者按】:网学网PHP为您提供php知道与问问的采集插件代码参考,解决您在php知道与问问的采集插件代码学习中工作中的难题,参考学习。
最近发现知道和问问小偷的版本越来越多了!!
看过一个百度小偷的网站也达到了pr6。收录十万多!!
在经过 荐礼啦 四十天的实践之后 发现百度对这个确实挺友好的。
从网站访问来看 很多也是从百度
搜索来的!
所以用知道和问问来填充网站内容还是可行的。
于是自己开发了一个知道 问问的采集插件
原则上适合 php+mysql 并且文章是在一个表的
程序 知道采集代码
复制代码 代码如下:
<?php
session_start();
header("content-type:text/html;charset=gbk");
require("stole_config.php");
require("conn.php");
require("keyword.php");
$searchStr=
php知道与问问的采集插件代码_网学
浏览:
GET["searchStr"];
$ss=explode(" ",$searchStr);//拆分搜索关键字
$word="";//关键字设为空
foreach($ss as $key=>$t)
{
if($key>0)
{
$word .="+";
}
$word .=urlencode($t);
}
$jl=intval(
php知道与问问的采集插件代码_网学
浏览:
GET[''jl'']);
if(isset(
php知道与问问的采集插件代码_网学
浏览:
GET[''page'']))
{
$page=intval(
php知道与问问的采集插件代码_网学
浏览:
GET[''page'']);
}else{
$page=1;
}
$rs=intval(
php知道与问问的采集插件代码_网学
浏览:
GET[''rs'']);
if($rs>=10)
{
$rs=0;
$page++;
}
if($page>76)
{
echo "采集完毕 ${jl}";
exit();
}
if(!empty($searchStr))//如果搜索
{
//获取
问题页面
$content=@file_get_contents("http://zhidao.baidu.com/q?ct=17&lm=0&tn=ikaslist&pn=".(($page-1)*10)."&rn=10&word=".$word);
//获取问题列表
preg_match_all("/<a href=\"\/question\/(.*)\.html/iUs",$content,$uid);
$uid=$uid;//获取详细页文章
$uid=$uid[$rs];
//判断数据是否存在
$suid="bd{$uid}";
$sct=mysql_query("select count(*) from {$table_prefix}c_article where suid=''$suid'' ");
$sct=mysql_fetch_array($sct);
$sct=$sct[0];
if($sct==0)
{
$content=@file_get_contents("http://zhidao.baidu.com/question/".$uid.".html") ;
$arr=explode(''<cq>'',$content);
$art_title=$arr;
$arr=explode(''</cq>'',$art_title);
$art_title=$arr[0];//获取标题结束
//判断内容是否符合
$word_arr=explode(",",$cj_word);
$word_allow=false;//初始化是否允许采集
$word_count=count($word_arr);//关键字总数
for($i=0;$i<$word_count;$i++)
{
if(substr_count($art_title,$word_arr[$i])>0)
{
$word_allow=1;
$i=$word_count;
}
}
if($word_allow)//如果满足条件
{
$arr=explode(''<cd><pre>'',$content);
$contentQuestion=$arr;
$arr=explode(''</pre></cd>'',$contentQuestion);
$contentQuestion=$arr[0];
echo "开始采集内容<br>";
echo "$art_title<br>";
@preg_match_all(''/(<ca>|<cn>)<pre>(.*)<\/pre>(<\/ca>|<\/cn>)/iUs'',$content,$answerArr);
$answerArr=$answerArr;
if($arr_order==1)//随机排序
{
shuffle($answerArr);
}
if($arr_order==2)//倒序
{
$answerArr=krsort($answerArr);//倒序
}
foreach($answerArr as $t)
{
$answerTemp=str_replace(''<ca><pre>'','''',$t);
$answerTemp=str_replace(''</pre></ca>'','''',$answerTemp);
$answerTemp=str_replace(''<cn><pre>'','''',$answerTemp);
$answerTemp=str_replace(''</pre></cn>'','''',$answerTemp);
if(strlen($answerTemp)>$min_t1)
{
$art_content .=$answerTemp."<br>";
}
}
//去除
链接 $s1="/(<a .*>)(.*)<\/a>/iUs";
$art_content=preg_replace($s1,${2},trim($art_content));
$art_content=str_replace("\n\r","<br>",$art_content);
if(strlen($art_content)>$min_t2)
{
$title_ct=mysql_query("select count(*) f