确抓取在程序处理的过程中要用到很多正则,比如去除连接去除括号等,这当然是简单的正则了。
(见到有高手说动态生成正则还没弄懂学习之~)
Regex pattern1 = new Regex(\"<a.*?</a>\", RegexOptions.Singleline | RegexOptions.IgnoreCase);
Regex pattern2 = new Regex(\"(.*?)\", RegexOptions.Singleline | RegexOptions.IgnoreCase);
newscontent = pattern1.Replace(newscontent, \"\");
newscontent = pattern2.Replace(newscontent, \"\");
程序里除了主要的方法外用得最多的就属正则表达式了,处理字符串用正则表达式那是当仁不让,。
5 下面是抓取时一些特殊情况的处理:
1比如新闻只让抓当日的
static DateTime todaysdate = DateTime.Now.Date;
//date为抓取的日期
DateTime newsday = Convert.ToDateTime(date);
newsday = newsday.Date;
TimeSpan s = todaysdate - newsday;
if (s.TotalDays.ToString() == \"0\")
{
这里干活
}
2过滤特殊字符比如url里有bbs关键字的不抓
if (newsurl.IndexOf(\"bbs\") > 0)
{
continue;
}
3写入新闻唯一id到文件避免同一天抓两次数据引起新闻重复(再抓的时候比较就可以了)
FileStream fs = new FileStream(filepaths, FileMode.OpenOrCreate, FileAccess.Write);
StreamWriter sw = new StreamWriter(fs, System.Text.Encoding.GetEncoding(\"gb2312\")); [Page]
sw.Flush();
sw.BaseStream.Seek(0, SeekOrigin.Begin);
//唯一id
sw.Write(newsqid);
sw.Close();
6抓数据的时候可以把要抓的网站和一些关键字写入xml一边程序里直接调用
这样比较省时省力,比如:
<?xml version=\"1.0\" encoding=\"utf-8\" ?>
<GetDatas>
<MyData>
<CarUrl>http://www.webhost/mysite.html</CarUrl>
<CarFilterf><![CDATA[列表页特征字符串开始]]></Filterf>
<CarFilters><![CDATA[列表页特征字符串结束]]></Filters>
<CarDetailFilterf><![CDATA[详情页特征字符串开始]]></CarDetailFilterf>
<CarDetailFilters><![CDATA[详情页特征字符串结束]]></CarDetailFilters>
<NewsKey>种类一</NewsKey>
</MyData>
<MyData>
<CarUrl>http://www.webhost/mysite.html</CarUrl>
<Filterf><![CDATA[列表页特征字符串开始]]></CarFilterf>
<Filters><![CDATA[ 列表页特征字符串结束 ]]></CarFilters>
&l