鉴于大家对网络知识十分关注,我们编辑小组在此为大家搜集整理了“SyCms建站第四讲:采集功能配置教程”一文,供大家参考学习!
今天我们来讲一下,配置SyCms里面的采集功能。
我们就采集网易的国内新闻,地址:/uploadfile/201406/29/DE13550584.jpg" width="533" height="370" />
采集名称里,我们输入:网易-国内新闻
网站编码,我们查看我们要采集的地址源代码里的这个地方。
采集地址:我们输入要采集的列表页地址,即:/uploadfile/201406/29/D413551498.jpg" width="517" height="363" />
我们单击“下一步”按钮,进入下一步界面。
在此界面,我们可以看到左边显示出了我们要采集地址的页面,右边显示的是这个页面的结构,我们把鼠标移到右边不同的DIV上,这时候左边就会选择显示出相应的区块。
注:我们在此看到界面上面有列表,分页,我们现在要选择的是列表信息,所以我们需要一步一步找以我们要采集的列表地址。
1.列表
我们单击鼠票经过 的这个右边DIV信息,出现如下界面:
这时候我们看到,系统已给我们分析出了要采集的最终页的地址。地址过滤里我们可以设置一些是我们要采集的地址或者是不在采集地址范围内的地址信息。当然这次我们先不写。
这时候,我们要默认读取的是“读取全部”,要不就成了只读取一条信息了。
确定无误后,“确定”,界面就显示如下图所示:
此时我们已经选择了列表信息了,如果我们要继续读取分页的时候,可以单击右上角“分页”,标示我们要选择分页的位置信息。
2.分页
鼠标在此单击,出现如一界面。
系统已经自动为我们分析了。一共10页,每页递增1,最低位数为2,跟地址显示的信息对比一下对不对,但此地址信息我们看到,没有01.html这个页面,所以我们分页开始要从第2页开始。之后确定无误后“确定”。我们已经选择了列表和分页信息了,我们单击“下一步”,如下图所示:
3.内容
跟上一个界面差不多,展开右边,选择相应的信息。
3.1标题
“单击”,出现如下界面:
填写完成之后,我们单击“确定”,界面如下所示:
3.2添加时间
看来添加时间只能在这里面筛选出来了。
这样我们就筛选出我们需要的新闻的添加时间了,“确定”。
3.3来源
我们看到此新闻还有来源,所以我们还是继续单击刚才选择添加时间的地方,此时,将会出现如下界面:
此时,红色框内,我们要查询“来源”字符,并且要保证“来源”确定,这样才能保证信息的正确性。因为有时候,没有来源的时候。“来源”字符也不存在。我们“确定”。
3.4内容
最后一步,我们要提取内容了,我们选择,如下图:
此时我们操作如下界面功能:
但是我们看到内容的最后有一个,本文来源,所以我们还要配置特殊取值,最终如下图所示:
如果是我们想要的效果,确定即可。
3.5摘要
我们看到界面上还有搞要内容,但我们也可以不使用上面的摘要,保存的时候,自动把内容取多少字符为搞要,当然了。如果觉得这上面的摘要比较好,我们还是可以取摘要的。
如下图:
如终效果如下图所示:
此时如果没有要修改的,我们单击“确定”,完成此次的采集配置,当然了,我们也可以选择内容后面的“分页”功能,如果内容有分页的时候。需要配置分页,当然这个也要看我们采集的内容有没有分页了,暂定这次没有分页,所以我们不需要去配置此分页。如果想要看看其它页面的效果,我们可以单击,“内容”前面的下拉框换个页面查看一下。
4.采集
完成之后,我们选择“采集”。
系统就会根据我们设置的采集信息,进行内容的采集了。当采集完成之后,我们单击列表的“名称”这一列,我们就进入了相应采集的内容列表。
我们可以单击修改,查看我们采集到的结果。
不错。我们采集的还很正常,这时候,我们要设置是否导出这些内容了。
5.导出
单击列表上面的“设置导出规则”。
我们选择导出到新闻模型,“确定”。
我们根据实际情况,一一对应选择即可,选择完成后“确定”。
这时候,我们看到列表页上的“导出内容”能够用了,我们单击“导出内容”,因为我们选择了图片本地化,可能会慢一点。
最后我们去我们导出到的栏目查看一下,所有的内容都在这显示了,单击开一个查看一下。
都没有问题,到此我们的采集工作就算完成了。
如果我们想有配图的时候,我们需要在设置导出的时候,内容的选项中设置成这样即可。
我们再试一下。
此时比较麻烦一些了,因为所有的内容都采集完成了,需要我们手动删除所有的内容,包括采集的内容,才能够重新采集如库。
再次导出成功后,我们查看一下栏目列表页,如下图:
此时,就已经有配图存在了,我们单击开有配图的新闻。