网站导航：网学原创论文原创专题网站设计最新系统原创论文论文降重发表论文论文发表 UI设计定制论文答辩PPT格式排版期刊发表论文专题

当前位置：网学 > 设计资源 > .Net编程 > 正文

C#抓取网页里面的所有链接！

论文降重修改服务、格式排版等获取论文论文降重及排版论文发表相关服务

这几天偶尔看见了，C#抓取网页的链接。的代码。感觉当时做的很简单。呵呵。也没多考虑什么过程。先把简单的给大家拿出来看看。如果大家有什么意见或者有好的方法可以共同交流。谢谢！一下仅供参考：

using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Windows.Forms;

using System.Xml;
using System.Net;
using System.IO;
using System.Collections;
using System.Text.RegularExpressions;

namespace text
{
    public partial class Form1 : Form
    {
        string strCode;
        ArrayList alLinks;
        public Form1()
        {
            InitializeComponent();
        }

        private void button1_Click(object sender, EventArgs e)
        {
            if (textBox1.Text == "")
            {
                MessageBox.Show("请输入网址");
                return;
            }
            string strURL = textBox1.Text.ToString().Trim();
            if (strURL.Substring(0, 7) != @"http://")
            {
                strURL = @"http://" + strURL;
            }
            MessageBox.Show("正在获取页面代码，请稍后");
            strCode = GetPageSource(strURL);
            MessageBox.Show("正在提取超链接，请稍侯");
            alLinks = GetHyperLinks(strCode);
            MessageBox.Show("正在写入文件，请稍侯");
            WriteToXml(strURL, alLinks);
        }
        // 获取指定网页的HTML代码
        public static string GetPageSource(string URL)
        {
            Uri uri = new Uri(URL);
            HttpWebRequest hwReq = (HttpWebRequest)WebRequest.Create(uri);
            HttpWebResponse hwRes = (HttpWebResponse)hwReq.GetResponse();
            hwReq.Method = "Get";
            hwReq.KeepAlive = false;
            StreamReader reader = new StreamReader(hwRes.GetResponseStream(), System.Text.Encoding.GetEncoding("GB2312"));
            return reader.ReadToEnd();
        }
        // 提取HTML代码中的网址
        public static ArrayList GetHyperLinks(string htmlCode)
        {
            ArrayList al = new ArrayList();
            string strRegex = @"http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?";
            Regex r = new Regex(strRegex, RegexOptions.IgnoreCase);
            MatchCollection m = r.Matches(htmlCode);
            for (int i = 0; i <= m.Count - 1; i++)
            {
                bool rep = false;
                string strNew = m[i].ToString();
                // 过滤重复的URL
                foreach (string str in al)
                {
                    if (strNew == str)
                    {
                        rep = true;
                        break;
                    }
                }
                if (!rep) al.Add(strNew);
            }
            al.Sort();
            return al;
        }
        // 把网址写入xml文件
        static void WriteToXml(string strURL, ArrayList alHyperLinks)
        {
            XmlTextWriter writer = new XmlTextWriter("HyperLinks.xml", Encoding.UTF8);
            writer.Formatting = Formatting.Indented;
            writer.WriteStartDocument(false);
            writer.WriteDocType("HyperLinks", null, "urls.dtd", null);
            writer.WriteComment("提取自" + strURL + "的超链接");
            writer.WriteStartElement("HyperLinks");
            writer.WriteStartElement("HyperLinks", null);
            writer.WriteAttributeString("DateTime", DateTime.Now.ToString());

            foreach (string str in alHyperLinks)
            {
                string title = GetDomain(str);
                string body = str;
                writer.WriteElementString(title, null, body);
            }
            writer.WriteEndElement();
            writer.WriteEndElement();
            writer.Flush();
            writer.Close();
        }
        // 获取网址的域名后缀
        static string GetDomain(string strURL)
        {
            string retVal;
            string strRegex = @"(\.com/|\.net/|\.cn/|\.org/|\.gov/)";
            Regex r = new Regex(strRegex, RegexOptions.IgnoreCase);
            Match m = r.Match(strURL);
            retVal = m.ToString();
            strRegex = @"\.|/contentquot;;
            retVal = Regex.Replace(retVal, strRegex, "").ToString();
            if (retVal == "")
                retVal = "other";
            return retVal;
        }
    }
}

上一篇资讯：效率最高的Excel数据导入---（c#调用SSISPackage将数据库数据导入到Excel文件中【附源代码下载】

下一篇资讯： Jquery打造AdRotator轮转图片

相关资讯

网学推荐

·原创论文的写法

·论文数据图表制作

·论文排版通过检测检测

·提供系统开发和运行服务

·提供原创参考资料

·档案托管服务

·原创参考论文导航

·查重服务维普检测低于30%

·我们提供原创参考论文和原创的参

·原创的论文资料参考节省时间！

·论文格式排版格式核对！

·UI设计定制、界面设计

·程序和网站等UI设计定制！

·原创参考论文参考定制！

·职称和论文发表,可联系业务我们

·本科毕业设计(论文)答辩指南

·程序制作专家

原创论文

·论文选题-查重参考论文

·参考论文大全

·电气工程及其自动化

·电子信息工程

·公共关系学

·公共事业管理

·公路交通运输

文章排行榜

· 自然框架的源代码、Demo、数据库、

· WebService身份验证

· 不要迷失在技术的海洋中

· .net完美操作cookies

· 取出文本中的图片地址

· 谷歌眼中的搜索未来

· GridView显示隐藏某一列

· 谈谈关于MVP模式中V-P交互问题【附

· ASP.NET网站预编译概述

· 详解.net内存管理

· json教程之C#开发json解析类

· 用FCKEditor编辑器上传图片、FLASH

· C#调用WebService时的身份验证

· WinForm窗体之间交互的一些方法

· VS中创建自定义SQLRule

· 三种方法在Infopath中实现数据有效

· 如何使用和开发自定义配置节

· C#获得当前文件夹内所有文件的名称

设为首页 | 加入收藏 | 网学首页 | 原创论文 | 计算机原创

版权所有网学网 [Myeducs.cn] 您电脑的分辨率是像素
Copyright 2008-2020 myeducs.Cn www.myeducs.Cn All Rights Reserved 湘ICP备09003080号常年法律顾问：王律师