具体实现思路:
1 首先用WebClient类下载网页源码
public static string DownLoadHtml(string url)
{
string output = \"\";
Encoding encode = Encoding.Default;
WebClient webclient = new WebClient();
try
{
webclient.Headers.Add(\"Referer\", url);
byte buff = webclient.DownloadData(url);
output = encode.GetString(buff);
}
catch
{
}
return output;
}
需要注意的:
有的网页可能下不下来,有种种原因比如需要cookie,编码问题等等
这是就要具体问题具体分析比如在头部加入cookie
webclient.Headers.Add(\"Cookie\", cookie);
这样可能需要一些重载方法。根据需要写就可以了。
2 下一步过滤掉不必要的特殊字符,把下载下来的网页内容清干净,方便抓取(比如空格双引号)
过滤特殊字符
public static string RepalceStr(string str)
{
str = str.Replace(\"\\r\\n\", \"\");
str = str.Replace(\"\\\"\", \"\");
str = str.Replace(\":\", \"\");
str = str.Replace(\"\\t\", \"\"); [Page]
str = str.Replace(\" \", \"\");
str = str.Replace(\"’\", \"\");
str = str.Replace(\"\\r\", \"\");