当前位置：网学 > 编程文档 > ASP.net > 正文

用.net精确提取网站数据的通用方法

作者：用户投稿来源：网络发布时间： 12/10/13

具体实现思路：

1 首先用WebClient类下载网页源码
  public static string DownLoadHtml(string url)
        {
            string output = \"\";
            Encoding encode = Encoding.Default;
            WebClient webclient = new WebClient();
            try
            {
                webclient.Headers.Add(\"Referer\", url);
                byte buff = webclient.DownloadData(url);
                output = encode.GetString(buff);
            }
            catch
            {
            }
            return output;
        }
需要注意的：
有的网页可能下不下来，有种种原因比如需要cookie,编码问题等等
这是就要具体问题具体分析比如在头部加入cookie
webclient.Headers.Add(\"Cookie\", cookie);
这样可能需要一些重载方法。根据需要写就可以了。

2 下一步过滤掉不必要的特殊字符，把下载下来的网页内容清干净，方便抓取(比如空格双引号）
过滤特殊字符
public static string RepalceStr(string str)
        {

            str = str.Replace(\"\\r\\n\", \"\");
            str = str.Replace(\"\\\"\", \"\");
            str = str.Replace(\"：\", \"\");
            str = str.Replace(\"\\t\", \"\"); [Page]
            str = str.Replace(\" \", \"\");
            str = str.Replace(\"’\", \"\");
            str = str.Replace(\"\\r\", \"\");

1 2 3 4 下一页

上一篇资讯：通过配置文件（web.config）实现邮件发送

下一篇资讯： NET开发之中的17种正则表达式