本文主要为广大网友提供“也谈采集入库的技术”,希望对需要也谈采集入库的技术网友有所帮助,学习一下!
落伍的贴也看了很多了,发现了很多讲小偷技术的,如精华贴里的--小偷
程序原理和简单示例:
[url]http://www.im286.com/viewthread.php?tid=407182&extra=page%3D1[/url] 等等,也有提供采集
程序下载的,但我还没看到一篇完整的入库的文章,或许是我看的贴少吧。虽然不是很深奥,我还是讲讲吧,希望高手别见笑啦,以前发了个
原创的影视系
统,却没落伍,这次再求落伍啦,希望大家帮顶下,也希望我能落伍!!
入库也和小偷一样,要先得到需入库的部分,我这里以[url]http://www.skycn.com/article/77.html[/url] 为例了
<%
dim url,mydate
url="http://www.skycn.com/article/77.html" ''定义url地址
Set OXML = server.CreateObject("Microsoft.XMLHTTP")
''下面定义两个函数,得到数据
Private Function BytesToBstr(body) ''利用流进行中文编码
Set ADOS = Server.CreateObject("ADODB.Stream")
Dim Bdat
Bdat=Body
ADOS.Type = 1
ADOS.Mode =3
ADOS.Open
ADOS.Write Bdat
ADOS.Position = 0
ADOS.Type = 2
ADOS.Charset = "GB2312"
BytesToBstr = ADOS.ReadText
ADOS.Close
End Function
Public Function GetData(byref url) ''利用OXML得到数据
''on error resume next
SourceCode = OXML.open ("GET",url,false)
OXML.send()
if OXML.readystate<>4 then exit function
GetData = BytesToBstr(OXML.responseBody)''
if err.number<>0 then err.Clear
End Function
mydate=getdata(url)
mydate=Replace(mydate,chr(34),"") ''去掉一些特殊字符,如双引号等,看自己情况定
mydate=Replace(mydate,chr(16),"")
response.write mydate
%>
我们就得到了以下的数据:
''''''''''''''''''''''''''''''''''''''''''''''''''code start''''''''''''''''''''''''
省列去部分..............
href=''../article/1034.html''>宽带用户需注意的七大安全</A><br><br></td></tr></table> </td> <td
width=20></td> <td vAlign=top width=540> <table border=0 width=540 borderColorDark=#ffffff
borderColorLight=#cccccc cellPadding=0 cellSpacing=0> <tr><td width=''100%'' align=''center''
bgcolor=''#CED7F1'' height=''20''><b><font color=''#000000''>03月10日值得注意病毒列表
</font></b> <b>访问次数:</b>24345</td></tr><tr><td
bgcolor=''#000000'' height=''1''></td></tr><tr><td width=''100%'' align=''center''><br><b>作者:</b>
瑞星 <b>来源:</b><font color=#000000>瑞星</font> <b>加入时间:
</b>2006-03-10 </td></tr><tr><td><br> 据瑞星全球反病毒监测
网介绍,今日有一个病毒特别值得注意,它是:“hotmail蠕虫(Worm.Hotmatom)”病毒。该病毒是全球
第一个专门针对Hotmail编写的蠕虫病毒,当用户登陆到MSN Hotmail发送邮件的时候,会被偷偷插入带毒
链接,收信人点击后就可能中毒。<br><br> 本日热门病毒:
<br><br> “hotmail蠕虫(Worm.Hotmatom)”病毒:警惕程度★★★☆,蠕虫
病毒,通过MSN Hotmail传播,依赖系统:WIN9X/NT/2000/XP。<br><br> 病毒
感染
计算机后,会把自己复制到“windows”