当前位置：网学 > 编程文档 > ASP.net > 正文

用.net精确提取网站数据的通用方法

作者：用户投稿来源：网络发布时间： 12/10/13

确抓取在程序处理的过程中要用到很多正则，比如去除连接去除括号等，这当然是简单的正则了。
（见到有高手说动态生成正则还没弄懂学习之~）
  Regex pattern1 = new Regex(\"<a.*?</a>\", RegexOptions.Singleline | RegexOptions.IgnoreCase);
  Regex pattern2 = new Regex(\"(.*?)\", RegexOptions.Singleline | RegexOptions.IgnoreCase);
  newscontent = pattern1.Replace(newscontent, \"\");
  newscontent = pattern2.Replace(newscontent, \"\");
程序里除了主要的方法外用得最多的就属正则表达式了，处理字符串用正则表达式那是当仁不让，。

5 下面是抓取时一些特殊情况的处理：
1比如新闻只让抓当日的
  static DateTime todaysdate = DateTime.Now.Date;
  //date为抓取的日期
  DateTime newsday = Convert.ToDateTime(date);
  newsday = newsday.Date;
  TimeSpan s = todaysdate - newsday;
  if (s.TotalDays.ToString() == \"0\")
     {
    这里干活
     }
2过滤特殊字符比如url里有bbs关键字的不抓
  if (newsurl.IndexOf(\"bbs\") > 0)
  {
      continue;
  }
3写入新闻唯一id到文件避免同一天抓两次数据引起新闻重复（再抓的时候比较就可以了）
  FileStream fs = new FileStream(filepaths, FileMode.OpenOrCreate, FileAccess.Write);
  StreamWriter sw = new StreamWriter(fs, System.Text.Encoding.GetEncoding(\"gb2312\")); [Page]
  sw.Flush();
  sw.BaseStream.Seek(0, SeekOrigin.Begin);
  //唯一id
  sw.Write(newsqid);
  sw.Close();

6抓数据的时候可以把要抓的网站和一些关键字写入xml一边程序里直接调用
这样比较省时省力，比如：
<?xml version=\"1.0\" encoding=\"utf-8\" ?>
<GetDatas>
  <MyData>
  <CarUrl>http://www.webhost/mysite.html</CarUrl>
    <CarFilterf><![CDATA[列表页特征字符串开始]]></Filterf>
    <CarFilters><![CDATA[列表页特征字符串结束]]></Filters>
    <CarDetailFilterf><![CDATA[详情页特征字符串开始]]></CarDetailFilterf>
    <CarDetailFilters><![CDATA[详情页特征字符串结束]]></CarDetailFilters>
    <NewsKey>种类一</NewsKey>
  </MyData>
  <MyData>
    <CarUrl>http://www.webhost/mysite.html</CarUrl>
    <Filterf><![CDATA[列表页特征字符串开始]]></CarFilterf>
    <Filters><![CDATA[ 列表页特征字符串结束 ]]></CarFilters>
    &l