网站导航免费论文 原创论文 论文搜索 原创论文 网学软件 学术大家 资料中心 会员中心 问题解答 原创论文 大学论文导航 设计下载 最新论文 下载排行 原创论文 论文源代码
返回网学首页
网学联系
最新论文 推荐专题 热门论文 素材专题
当前位置: 网学 > 编程文档 > ASP.net > 正文

用.net精确提取网站数据的通用方法

来源:http://myeducs.cn 联系QQ:点击这里给我发消息 作者: 用户投稿 来源: 网络 发布时间: 12/10/13
确抓取在程序处理的过程中要用到很多正则,比如去除连接去除括号等,这当然是简单的正则了。
(见到有高手说动态生成正则还没弄懂学习之~)
  Regex pattern1 = new Regex(\"<a.*?</a>\", RegexOptions.Singleline | RegexOptions.IgnoreCase);
  Regex pattern2 = new Regex(\"(.*?)\", RegexOptions.Singleline | RegexOptions.IgnoreCase);
  newscontent = pattern1.Replace(newscontent, \"\");
  newscontent = pattern2.Replace(newscontent, \"\");
程序里除了主要的方法外用得最多的就属正则表达式了,处理字符串用正则表达式那是当仁不让,。

5 下面是抓取时一些特殊情况的处理:
1比如新闻只让抓当日的
  static DateTime todaysdate = DateTime.Now.Date;
  //date为抓取的日期
  DateTime newsday = Convert.ToDateTime(date);
  newsday = newsday.Date;
  TimeSpan s = todaysdate - newsday;
  if (s.TotalDays.ToString() == \"0\")
     {
    这里干活
     }
2过滤特殊字符比如url里有bbs关键字的不抓
  if (newsurl.IndexOf(\"bbs\") > 0)
  {
      continue;
  }
3写入新闻唯一id到文件避免同一天抓两次数据引起新闻重复(再抓的时候比较就可以了)
  FileStream fs = new FileStream(filepaths, FileMode.OpenOrCreate, FileAccess.Write);
  StreamWriter sw = new StreamWriter(fs, System.Text.Encoding.GetEncoding(\"gb2312\")); [Page]
  sw.Flush();
  sw.BaseStream.Seek(0, SeekOrigin.Begin);
  //唯一id
  sw.Write(newsqid);
  sw.Close();   


6抓数据的时候可以把要抓的网站和一些关键字写入xml一边程序里直接调用
这样比较省时省力,比如:
<?xml version=\"1.0\" encoding=\"utf-8\" ?>
<GetDatas>
  <MyData>
  <CarUrl>http://www.webhost/mysite.html</CarUrl>
    <CarFilterf><![CDATA[列表页特征字符串开始]]></Filterf>
    <CarFilters><![CDATA[列表页特征字符串结束]]></Filters>
    <CarDetailFilterf><![CDATA[详情页特征字符串开始]]></CarDetailFilterf>
    <CarDetailFilters><![CDATA[详情页特征字符串结束]]></CarDetailFilters>
    <NewsKey>种类一</NewsKey>
  </MyData>
  <MyData>
    <CarUrl>http://www.webhost/mysite.html</CarUrl>
    <Filterf><![CDATA[列表页特征字符串开始]]></CarFilterf>
    <Filters><![CDATA[ 列表页特征字符串结束 ]]></CarFilters>
    &l

网学推荐

免费论文

原创论文

设为首页 | 加入收藏 | 论文首页 | 论文专题 | 设计下载 | 网学软件 | 论文模板 | 论文资源 | 程序设计 | 关于网学 | 站内搜索 | 网学留言 | 友情链接 | 资料中心
版权所有 QQ:3710167 邮箱:3710167@qq.com 网学网 [Myeducs.cn] 您电脑的分辨率是 像素
Copyright 2008-2015 myeducs.Cn www.myeducs.Cn All Rights Reserved 湘ICP备09003080号