利用PHP制作简单的内容采集器

下一篇资讯：用Suhosin加强PHP脚本语言安全性

网学推荐

免费论文

原创论文

文章排行榜

版权所有 QQ:3710167 邮箱：3710167@qq.com 网学网 [Myeducs.cn] 您电脑的分辨率是像素
Copyright 2008-2015 myeducs.Cn www.myeducs.Cn All Rights Reserved
湘ICP备09003080号

POST[‘number’]这种格式来接收需要采集的书号了。接收到书号，下面要做的就是构造书目页：$url=http://www.86zw.com/Book/ 利用PHP制作简单的内容采集器_网学

当前位置：网学 > 编程文档 > PHP > 正文

利用PHP制作简单的内容采集器

来源：Http://myeducs.cn 联系QQ：

作者：用户投稿来源：网络发布时间： 12/10/17

content

下一篇资讯：用Suhosin加强PHP脚本语言安全性

网学推荐

免费论文

原创论文

文章排行榜

版权所有 QQ:3710167 邮箱：3710167@qq.com 网学网 [Myeducs.cn] 您电脑的分辨率是像素
Copyright 2008-2015 myeducs.Cn www.myeducs.Cn All Rights Reserved
湘ICP备09003080号

POST[‘number’]/Index.aspx，当然这里是举个例子，主要是为了讲解方便，实际制作的时候最好检查一下利用PHP制作简单的内容采集器_网学

当前位置：网学 > 编程文档 > PHP > 正文

利用PHP制作简单的内容采集器

来源：Http://myeducs.cn 联系QQ：

作者：用户投稿来源：网络发布时间： 12/10/17

content

下一篇资讯：用Suhosin加强PHP脚本语言安全性

网学推荐

免费论文

原创论文

文章排行榜

版权所有 QQ:3710167 邮箱：3710167@qq.com 网学网 [Myeducs.cn] 您电脑的分辨率是像素
Copyright 2008-2015 myeducs.Cn www.myeducs.Cn All Rights Reserved
湘ICP备09003080号

POST[‘number’]的合法性。

　　构造好URL以后就可以开始采集书籍信息了。使用file_get_contents() 函数打开书目页：$content=file_get_contents（$url），这样就能将书目页的内容都读取出来了。接下来就是将书名、作者和类型等信息匹配出来了。这里就以书名为例，其他的都一样。打开书目页，查看源文件，找到“<span class="booktitle">《回到明朝当王爷》</span>”，这就是要提取出来的书名了。提取书名的正则表达式：/<span class="newstitle">(.*?)\<\/span>/is，使用preg_match_all()函数将书名取出：preg_match_all("/<span class="newstitle">(.*?)\<\/span>/is",$contents,$title);这样$title[0][0]的内容就是我们要的标题了（preg_match_all函数的用法可以去百度查，这里就不详细说明了）。取出了书籍信息，接下来就是取章节内容了，要取章节内容，首先要做的就是找到每一章的地址，然后远程打开章节，用正则将内容取出来，入库或者直接生成html静态文件。这个是章节列表的地址：http://www.86zw.com/Html/Book/18/3727/List.shtm，可以看出这个和书目页一样，是有规律可寻的：http://www.86zw.com/Html/Book/分类号/书号/List.shtm。书号前面已经取得，这里的关键是找到分类号，分类号可以在前面的书目页找到，提取分类号：

　　preg_match_all("/Html\/Book\/[0-9]{1,}\/[0-9]{1,}\/List\.shtm/is",$contents,$typeid);这样还不够，还需要一个切取函数：

　　[复制PHP代码] [ - ]PHP代码如下:

function cut($string,$start,$end){
$message = explode($start,$string);
$message = explode($end,$message); return $message[0];}其中$string为要被切取的内容，$start为开始的地方，$end为结束的地方。取出分类号：

$start = "Html/Book/";
$end
= "List.shtm";
$typeid = cut($typeid[0][0],$start,$end);
$typeid = explode("/",$typeid);[/php]

　　这样，$typeid[0]就是我们要找的分类号了。接下来就是构造章节列表的地址了：$chapterurl = http://www.86zw.com/Html/Book/.$typeid[0]/ 利用PHP制作简单的内容采集器_网学

当前位置：网学 > 编程文档 > PHP > 正文

利用PHP制作简单的内容采集器

来源：Http://myeducs.cn 联系QQ：

作者：用户投稿来源：网络发布时间： 12/10/17

content

下一篇资讯：用Suhosin加强PHP脚本语言安全性

网学推荐

免费论文

原创论文

文章排行榜

POST[‘number’]/List.shtm。有了这个就能找到每一章节的地址了。方法如下：

$ustart = """;
$uend
= """;
//t表示title的缩写
$tstart = ">";
$tend
= "<";
//取路径,例如:123.shtm,2342.shtm,233.shtm
preg_match_all("/"[0-9]{1,}\.(shtm)"/is",$chapterurl,$url);
//取标题,例如:第一章九世善人
preg_match_all("/<a href="[0-9]{1,}\.shtm"(.*?)\<\/a>/is",$file,$title);
$count = count($url[0]);
for($i=0;$i<=$count;$i++)
{
$u = cut($url[0][$i],$ustart,$uend);
$t = cut($title[0][$i],$tstart,$tend);
$array[$u] = $t;
}

　　$array数组就是所有的章节地址了，到这里，采集器就完成一半了，剩下的就是循环打开每个章节地址，读取，然后将内容匹配出来。这个比较简单，这里就不详细叙述了。