网站导航网学 原创论文 原创专题 网站设计 最新系统 原创论文 论文降重 发表论文 论文发表 UI设计定制 论文答辩PPT格式排版 期刊发表 论文专题
返回网学首页
网学原创论文
最新论文 推荐专题 热门论文 论文专题
当前位置: 网学 > 设计资源 > 正则表达式 > 正文

正则表达式应用四则

论文降重修改服务、格式排版等 获取论文 论文降重及排版 论文发表 相关服务
ine。如果HTML页面非常复杂,使用Microsoft IE从5.0开始提供的一项附加功能可以只查看被选中部分页面的HTML代码,请访问http://www.microsoft.com/Windows/ie/WebAccess/default.ASP了解详情。对于本例,我们假定这是唯一class属性设置为Headline的表格。现在我们要创建正则表达式,通过正则表达式找到这个Headline表格并把这个表格包含到自己的页面中。首先是编写支持正则表达式的代码:

<%
Dim re, strHTML
Set re = new RegExp '' 创建正则表达式对象

re.IgnoreCase = true
re.Global = false '' 第一次匹配之后结束查找
%>

  下面考虑一下我们要提取的区域:在这里,我们要提取的是整个<table>结构,包括结束标记和新闻标题的文本。因此查找的起始字符应该是<table>开始标记: re.Pattern = "<table.*(?=Headline)"。这个正则表达式匹配表格的开始标记,能够返回开始标记直至“Headline”之间的所有内容(换行除外)。下面是返回已匹配HTML代码的方法:

'' 把所有匹配的HTML代码放入Matches集合
Set Matches = re.Execute(strHTML)

'' 显示所有匹配的HTML代码
For Each Item in Matches
Response.Write Item.Value
Next

'' 显示其中一项
Response.write Matches.Item(0).Value

  运行这段代码处理前面显示的HTML片断,正则表达式返回一次匹配的内容如下: <table border="0" width="11%" class="。正则表达式中的“(?=Headline)”没有获取字符,所以不能看到表格class属性的值。要获取表格剩余部分的代码也相当简单: re.Pattern = "<table.*(?=Headline)(.|\n)*?</table>"。其中:“(.|\n)”后面的“*”匹配0个到多个任意字符;而“?”使得“*”匹配范围最小化,即在找到表达式的下一部分之前匹配尽可能少的字符。</table>是表格的结束标记。

  “?”限制符非常重要,它防止了表达式返回其他表格的代码。例如对于前面给出的HTML代码片断,如果删除这个“?”则返回内容将是:

<table border="0" width="11%" class="Headline">
<tr>
<td width="100%">
<p align="center">伊拉克战争!</td>
</tr>
</table>
<table border="0" width="11%" class="Someotherstory">
<tr>
<td width="100%">
<p align="center">其他内容...</td>
</tr>
</table>


  返回的内容不仅包含了Headline表的<table>标记,而且还包含了Someotherstory表格,由此可以看出,这里的“?”是必不可少的。

  本例假设了一些相当理想化的前提。实际应用中情况往往要复杂得多,特别是你对正在使用的源HTML代码的编写没有任何影响力时,编写ASP代码尤为困难。最有效的方法是,多花些时间分析待提取内容附近的HTML,经常地测试,确保提取出来的内容正是自己所需要的。另外,应当重视并处理正则表达式不能匹配源HTML页面任何内容的情形。内容的更新可能非常快速,不要只因为别人改变了内容的格式而让自己的页面出现低级可笑的错误。
----------------------------------------------------
三、解析文本数据文件

  数据文件的格式和种类很多,XML文档、结构化文本甚至非结构化文本都经常成为ASP应用的数据源。下面我们要看的一个例子是使用限定符的结构化文本文件。限定符(比如引号)表示字符串各个部分不可分割,即使字符串内部包含把记录分隔成字段的分隔符也一样。

  下面是一个简单的结构化文本文件:

姓,名, 电话, 说明
孙,悟空, 312 555 5656, ASP很好
猪,八戒, 847 555 5656, 我是电影制片人

  这个文件非常简单,它的第一行是标题,下面两行是用逗号作为分隔符的记
设为首页 | 加入收藏 | 网学首页 | 原创论文 | 计算机原创
版权所有 网学网 [Myeducs.cn] 您电脑的分辨率是 像素
Copyright 2008-2020 myeducs.Cn www.myeducs.Cn All Rights Reserved 湘ICP备09003080号 常年法律顾问:王律师