网学网为需要网络知识的朋友们搜集整理了CMS自带采集体验系列之齐博CMS v7.0相关资料,希望对各位网友有所帮助!
CMS自带采集体验系列文章已做了三期:
CMS自带采集体验系列之PHPCMS V9
CMS自带采集体验系列之DedeCMS v5.7
CMS自带采集评测系列帝国CMS v6.6
今天的第四期我们来体验下齐博CMS的自带采集,齐博CMS前身是“龙城”于大学期间也即2003年所创建的PHP168网站管理系统,于2010年12月1日更名为齐博软件。自2003年10月V1.0版本面世至今,经历了多个版本的升级换代,现已发展到最为成熟的“核心+模块+插件”的架构体系,成为国内领先的开源PHP系统。涉及电子政务、媒体新闻门户、大型企业信息化、电子商务B2B等高端互联网应用,已为数以万计的免费及收费用户提供应用平台。
同样,今天我们来体验下齐博CMS整站系统的自带采集的文章采集和组图采集功能。目标网站与之前文章的也还是一样,比较好做对比。
一、文章采集
1、标题和URL采集
采集目标网站:/uploadfile/201406/30/C314531110.jpg" />
同时齐博也考虑到了有些网站列表页第一页的网址规则是不符合整体变化规则的,所以后面有一个文本框可填写无规则的第一页。我们的采集目标第一页是符合整体规律的,所以留空。
采集内容页地址和内容页标题。齐博CMS自带采集与众不同的地方:采集标题并不是在内容页采集,而是在采集列表页中的文章url的同时也直接把锚文本文字采集为标题。你只需定义一下这个指向内容页的锚文本规则就可以了。其中{url=*}代表标题网址通配符,{title=*}代表标题通配符,{*}代表不需要的内容通配符。分析我们的目标站可以得到规则为:
<li><a href="{url=*}" target=_blank>{title=*}</a><span class="c_date">{*}</span></li>
其实这样的设计有点小瑕疵,比如有些网站为了让列表页更美观,会限制列表页标题的字数,然后控制文章的双标题中的副标题字数让其显示在列表页,而主标题出现在内容页。
接下来可以勾选“显示不常用的高级设置”来对采集网址进一步设置,其实有几个功能也还是比较常用的,比如链接中不能包含或者必须包含的字符设置,在过滤干扰链接的时候也很常用。另外其他的替换标题字符、链接字符、指定截取区域等可以看页面左边的说明,开头结尾正则语法这个设置对使用者的要求比较高,如果你不熟悉PHP的话请慎用。
设置好后,点击“测试采集标题”
如图,我们采集到内容页地址以及对应的标题。然后关闭测试页,点击“下一步”设置内容采集规则。
共5页 首页 上一页 1 2 3 4 5 下一页 尾页快捷键使用:上一页“←”,下一页“→”内容导航