网站导航：网学原创论文原创专题网站设计最新系统原创论文论文降重发表论文论文发表 UI设计定制论文答辩PPT格式排版期刊发表论文专题

当前位置：网学 > 交易代码 > ASP.Net精品代码 > 正文

C#抓取网页里面的所有链接！

论文降重修改服务、格式排版等获取论文论文降重及排版论文发表相关服务

这几天偶尔看见了，C#抓取网页的链接。的代码。感觉当时做的很简单。呵呵。也没多考虑什么过程。先把简单的给大家拿出来看看。如果大家有什么意见或者有好的方法可以共同交流。谢谢！一下仅供参考：

using System;

using System.Collections.Generic;

using System.ComponentModel;

using System.Data;

using System.Drawing;

using System.Linq;

using System.Text;

using System.Windows.Forms;

using System.Xml;

using System.Net;

using System.IO;

using System.Collections;

using System.Text.RegularExpressions;

namespace text

{

    public partial class Form1 : Form

    {

        string strCode;

        ArrayList alLinks;

        public Form1()

        {

            InitializeComponent();

        }

        private void button1_Click(object sender, EventArgs e)

        {

            if (textBox1.Text == "")

            {

                MessageBox.Show("请输入网址");

                return;

            }

            string strURL = textBox1.Text.ToString().Trim();

            if (strURL.Substring(0, 7) != @"http://")

            {

                strURL = @"http://" + strURL;

            }

            MessageBox.Show("正在获取页面代码，请稍后...");

            strCode = GetPageSource(strURL);

            MessageBox.Show("正在提取超链接，请稍侯...");

            alLinks = GetHyperLinks(strCode);

            MessageBox.Show("正在写入文件，请稍侯...");

            WriteToXml(strURL, alLinks);

        }

        // 获取指定网页的HTML代码

        public static string GetPageSource(string URL)

        {

            Uri uri = new Uri(URL);

            HttpWebRequest hwReq = (HttpWebRequest)WebRequest.Create(uri);

            HttpWebResponse hwRes = (HttpWebResponse)hwReq.GetResponse();

            hwReq.Method = "Get";

            hwReq.KeepAlive = false;

            StreamReader reader = new StreamReader(hwRes.GetResponseStream(), System.Text.Encoding.GetEncoding("GB2312"));

            return reader.ReadToEnd();

        }

        // 提取HTML代码中的网址

        public static ArrayList GetHyperLinks(string htmlCode)

        {

            ArrayList al = new ArrayList();

            string strRegex = @"http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?";

            Regex r = new Regex(strRegex, RegexOptions.IgnoreCase);

            MatchCollection m = r.Matches(htmlCode);

            for (int i = 0; i <= m.Count - 1; i++)

            {

                bool rep = false;

                string strNew = m[i].ToString();

                // 过滤重复的URL

                foreach (string str in al)

                {

                    if (strNew == str)

                    {

                        rep = true;

                        break;

                    }

                }

                if (!rep) al.Add(strNew);

            }

            al.Sort();

            return al;

        }

        // 把网址写入xml文件

        static void WriteToXml(string strURL, ArrayList alHyperLinks)

        {

            XmlTextWriter writer = new XmlTextWriter("HyperLinks.xml", Encoding.UTF8);

            writer.Formatting = Formatting.Indented;

            writer.WriteStartDocument(false);

            writer.WriteDocType("HyperLinks", null, "urls.dtd", null);

            writer.WriteComment("提取自" + strURL + "的超链接");

            writer.WriteStartElement("HyperLinks");

            writer.WriteStartElement("HyperLinks", null);

            writer.WriteAttributeString("DateTime", DateTime.Now.ToString());

            foreach (string str in alHyperLinks)

            {

                string title = GetDomain(str);

                string body = str;

                writer.WriteElementString(title, null, body);

            }

            writer.WriteEndElement();

            writer.WriteEndElement();

            writer.Flush();

            writer.Close();

        }

        // 获取网址的域名后缀

        static string GetDomain(string strURL)

        {

            string retVal;

            string strRegex = @"(\.com/|\.net/|\.cn/|\.org/|\.gov/)";

            Regex r = new Regex(strRegex, RegexOptions.IgnoreCase);

            Match m = r.Match(strURL);

            retVal = m.ToString();

            strRegex = @"\.|/contentquot;;

            retVal = Regex.Replace(retVal, strRegex, "").ToString();

            if (retVal == "")

                retVal = "other";

            return retVal;

        }

    }

}

上一篇资讯： C#限制用户输入规定的字符和数字

下一篇资讯： C++强大的背后

相关资讯

网学推荐

·原创论文的写法

·论文数据图表制作

·论文排版通过检测检测

·提供系统开发和运行服务

·提供原创参考资料

·档案托管服务

·原创参考论文导航

·查重服务维普检测低于30%

·我们提供原创参考论文和原创的参

·原创的论文资料参考节省时间！

·论文格式排版格式核对！

·UI设计定制、界面设计

·程序和网站等UI设计定制！

·原创参考论文参考定制！

·职称和论文发表,可联系业务我们

·本科毕业设计(论文)答辩指南

·程序制作专家

原创论文

·论文选题-查重参考论文

·参考论文大全

·电气工程及其自动化

·电子信息工程

·公共关系学

·公共事业管理

·公路交通运输

文章排行榜

· 微软ASP.NET环境下的页面验证控件

· 利用C#远程存取Access数据库

· c#连接字符串数据库服务器端口号

· ftp操作实现类

· 数据库操作通类实现

· ListView表头排序实现

· 实验室管理系统

· 眼镜行分销系统

· 网上售书系统

· 电子合同管理系统

· 电子选课系统

· ASP.NET2.0企业级项目开发网上书店

· 客户关系管理系统

· ASP.NET2.0企业级项目开发简单OA系

· ASP.NET2.0企业级项目开发会员积分

· 网络考试系统asp.net全部代码

· 都市网络新闻中心系统asp.net全部代

· 电子商务网站asp.net全代码

设为首页 | 加入收藏 | 网学首页 | 原创论文 | 计算机原创

版权所有网学网 [Myeducs.cn] 您电脑的分辨率是像素
Copyright 2008-2020 myeducs.Cn www.myeducs.Cn All Rights Reserved 湘ICP备09003080号常年法律顾问：王律师