网站导航免费论文 原创论文 论文搜索 原创论文 网学软件 学术大家 资料中心 会员中心 问题解答 原创论文 大学论文导航 设计下载 最新论文 下载排行 原创论文 论文源代码
返回网学首页
网学联系
最新论文 推荐专题 热门论文 素材专题
当前位置: 网学 > 编程文档 > ASP.net > 正文

用.net精确提取网站数据的通用方法

来源:http://myeducs.cn 联系QQ:点击这里给我发消息 作者: 用户投稿 来源: 网络 发布时间: 12/10/13
具体实现思路:

1 首先用WebClient类下载网页源码 
  public static string DownLoadHtml(string url)
        {
            string output = \"\";
            Encoding encode = Encoding.Default;
            WebClient webclient = new WebClient();
            try
            {
                webclient.Headers.Add(\"Referer\", url);
                byte buff = webclient.DownloadData(url);
                output = encode.GetString(buff);
            }
            catch
            {
            }
            return output;
        }
需要注意的:
有的网页可能下不下来,有种种原因比如需要cookie,编码问题等等
这是就要具体问题具体分析比如在头部加入cookie
 webclient.Headers.Add(\"Cookie\", cookie);
这样可能需要一些重载方法。根据需要写就可以了。

2 下一步过滤掉不必要的特殊字符,把下载下来的网页内容清干净,方便抓取(比如空格双引号)
过滤特殊字符
public static string RepalceStr(string str)
        {
           
            str = str.Replace(\"\\r\\n\", \"\");
            str = str.Replace(\"\\\"\", \"\");
            str = str.Replace(\":\", \"\");
            str = str.Replace(\"\\t\", \"\"); [Page]
            str = str.Replace(\" \", \"\");
            str = str.Replace(\"’\", \"\");
            str = str.Replace(\"\\r\", \"\");
        

网学推荐

免费论文

原创论文

设为首页 | 加入收藏 | 论文首页 | 论文专题 | 设计下载 | 网学软件 | 论文模板 | 论文资源 | 程序设计 | 关于网学 | 站内搜索 | 网学留言 | 友情链接 | 资料中心
版权所有 QQ:3710167 邮箱:3710167@qq.com 网学网 [Myeducs.cn] 您电脑的分辨率是 像素
Copyright 2008-2015 myeducs.Cn www.myeducs.Cn All Rights Reserved 湘ICP备09003080号