网站导航免费论文 原创论文 论文搜索 原创论文 网学软件 学术大家 资料中心 会员中心 问题解答 原创论文 论文素材 设计下载 最新论文 下载排行 论文上传 在线投稿 联系我们
返回网学首页
网学联系
最新论文 推荐专题 热门论文 素材专题
当前位置: 网学 > 编程文档 > PHP > 正文
怎样使用PHP服务端代理抓取网页内容-PHP编程教程
来源:Http://myeducs.cn 联系QQ:点击这里给我发消息 作者: 用户投稿 来源: 网络 发布时间: 12/12/10
下载{$ArticleTitle}原创论文样式

最近公司暂时断开外网,只开放公司自己所有的站点允许访问,说实在的,做WEB开发的断网,真是让人哭笑不得......

由于需要查找资料,只好简单写了一个PHP的服务端代理页面来用一下!

简单框架页面:

以下为引用的内容:

<style type="text/css">
*{margin:0;padding:0;}
html,body{overflow:hidden;}
td{padding:0;vertical-align:top;}
</style>
<table width="100%" height="100%" cellspacing="0" cellpadding="0" border="0">
<tr>
<td style="height:25px;background:#d4d0c8;padding:5px 10px;">
<form method="post" action="action_get.php" target="actioncontent" style="margin:0;padding:0;">
<input type="text" id="targeturl" name="targeturl" style="width:100%;border:1px inset;margin:0;" />
</form>
</td>
</tr>
<tr>
<td>
<iframe name="actioncontent" style="width:100%;height:100%;"></iframe>
</td>
</tr>
</table>
<script type="text/javascript">
window.onload = function(){
 document.getElementById(''targeturl'').focus();
};
</script>

PHP代理页面:

以下为引用的内容:

<?php
//使用Snoopy的抓页功能
include "Snoopy.class.php";
//目标URL
$url = 怎样使用PHP服务端代理抓取网页内容-PHP编程教程_网学

浏览:
版权所有 QQ:3710167 邮箱:3710167@qq.com 网学网 [Myeducs.cn] 您电脑的分辨率是 像素
Copyright 2008-2015 myeducs.Cn www.myeducs.Cn All Rights Reserved
湘ICP备09003080号
REQUEST[''targeturl''];
//将所有传递过来的参数列出来
$par = array();
$GetPost = array_merge( 怎样使用PHP服务端代理抓取网页内容-PHP编程教程_网学
浏览:
版权所有 QQ:3710167 邮箱:3710167@qq.com 网学网 [Myeducs.cn] 您电脑的分辨率是 像素
Copyright 2008-2015 myeducs.Cn www.myeducs.Cn All Rights Reserved
湘ICP备09003080号
POST, 怎样使用PHP服务端代理抓取网页内容-PHP编程教程_网学
浏览:
版权所有 QQ:3710167 邮箱:3710167@qq.com 网学网 [Myeducs.cn] 您电脑的分辨率是 像素
Copyright 2008-2015 myeducs.Cn www.myeducs.Cn All Rights Reserved
湘ICP备09003080号
GET);
foreach($GetPost As $Key=>$Value){
 if($Key!=''targeturl''){
  $Value = str_replace("%25","%",$Value);
  array_push($par,($Key . "=" . $Value));
 }
}
//判断目标URL是否带有?(即是否带有参数)
$cc = strpos($url,"?") ? "&" : "?";
//重组URL
$geturl = !$par ? $url : $url.$cc.implode("&",$par);
//抓取重组后的URL页面内容
$snoopy = new Snoopy;
$snoopy->fetch($geturl);
//替换目标内容中脚本里有可能替换父窗口地址的代码
$org = str_replace("top.location","top.title",$snoopy->results);
//尝试转换目标内容编码到UTF-8
$opt = iconv("gbk","utf-8",$org);
//判断目标内容编码为GBK或UTF-8
$ec = strlen($opt)?"gbk":"utf-8";

?>
<script type="text/javascript">
//封闭运行,避免与后面内容中脚本混乱
(function(){
var easyUTF8 = function(gbk){if(!gbk){return '''';}var utf8 = [];for(var i=0;i<gbk.length;i++){var s_str = gbk.charAt(i);if(!(/^%u/i.test(escape(s_str)))){utf8.push(s_str);continue;}var s_char = gbk.charCodeAt(i);var b_char = s_char.toString(2).split('''');var c_char = (b_char.length==15)?[0].concat(b_char):b_char;var a_b =[];a_b[0] = ''1110''+c_char.splice(0,4).join('''');a_b[1] = ''10''+c_char.splice(0,6).join('''');a_b[2] = ''10''+c_char.splice(0,6).join('''');for(var n=0;n<a_b.length;n++){utf8.push(''%''+parseInt(a_b[n],2).toString(16).toUpperCase());}}return utf8.join('''');};
var getArgs = function(surl){var sarg = surl.split(''?''),rv={};rv.filename=sarg[0];if(!sarg[1]){return rv;}var aarg=sarg[1].split(''&''),atmp=[];for(var i=0;i<aarg.length;i++){atmp=aarg[i].split(''='');rv[atmp[0]]=atmp[1];}return rv;};
var createIPH = function(name,value){if(!name){return;}if(/msie/i.test(navigator.appVersion)){return document.createElement(''<input type="hidden" name="''+name+''" value="''+value+''"/>'');}else{var dfi = document.createElement(''input'');dfi.type = ''hidden'';dfi.name = name;dfi.value = value;return dfi;}};
//回显目标URL到父窗口文本框
var dtu = top.document.getElementById(''targeturl'');
if(dtu){dtu.value = ''<?php echo $geturl;?>'';}
//目标URL及domain
var sref = ''<?php echo $url;?>'';
var sdomain = sref.match(/^http:\/\/[^\/]*/i)[0];
//页面加载后执行下面的过程
var process = function(){
 //抓取页面中所有链接
 var dlink = document.getElementsByTagName(''a''),la = dlink.length;
 //抓取页面中所有表单
 var dform = document.getElementsByTagName(''form''),lf = dform.length;
 //遍历所有链接,替换它们的href地址
 for(var i=0;i<la;i++){
 var src = dlink[i].href.toString().replace(/^http:\/\/www\.w3cgroup\.com(?:\/geturl)?/i,sdomain);
 var oargs = getArgs(src),ahref = [];
 //UTF-8编码参数值
 for(var d in oargs){
  if(!d||d==''filename''||!oargs[d]){continue;}
  ahref.push(d+''=''+encodeURIComponent(easyUTF8(oargs[d])));
 }
 var ghref = ahref.length?oargs.filename+''?''+ahref.join(''&''):oargs.filename;
 //重设链接地址
 dlink[i].href = ''http://www.w3cgroup.com/geturl/action_get.php?targeturl=''+ghref;
 }
 //遍历所有表单,替换它们的action地址
 for(i=0;i<lf;i++){
 //抓取表单action并处理
 var src = dform[i].action.toString().replace(/^http:\/\/www\.w3cgroup\.com(?:\/geturl)?/i,sdomain);
 if(!(/^http/.test(src))){src = (/^\/.*$/.test(src))?(sdomain+src):(sdomain+''/''+src);}
 //创建一个隐藏域targeturl,值为上面处理的src地址
 var dfi = createIPH(''targeturl'',src);
 dform[i].appendChild(dfi);
 //创建一个隐藏域ie,值为utf-8,纯属为搜索引擎使用
 var dfi2 = createIPH(''ie'',''utf-8'');
 dform[i].appendChild(dfi2);
 //重设表单提交目标窗口
 dform[i].target = ''actioncontent'';
 //重设表单action地址
 dform[i].action = ''http://www.w3cgroup.com/geturl/action_get.php'';
 //重设表单onsubmit事件,用来UTF8编码字段值
 dform[i].onsubmit = function(){
  var dlms = this.elements,l = dlms.length-1,pn = '''',pt = '''',pv = '''';
  for(var i=0;i<l;i++){
   pn = dlms[i].name,pt = dlms[i].type,pv = dlms[i].value;
   if(!pn||pn==''targeturl''||pn==''ie''){continue;}
   if(pt==''submit''||pt==''reset''||pt==''button''){
    dlms[i].value = encodeURIComponent(pv);
   }else{
    dlms[i].value = encodeURIComponent(easyUTF8(pv));
   }
  }
 };
 }
};
//绑定该过程到window.onload
if(document.attachEvent){window.attachEvent(''onload'',process);}else{window.addEventListener(''load'',process,false);}
})();
</script>
//脚本放在输出内容前,避免内容中可能出现脚本错误而导致我们要做的事情被废掉
//输出抓到的目标页面内容
<?php echo ($ec=="gbk")?$opt:$org;?>

在这个小作品中,我编写了一个重要的JavaScript函数easyUTF8,它可以很方便地在JavaScript脚本中将GBK编码的内容转换为UTF-8编码。

我们还处理了一下表单中添加项目的兼容问题,注意看createIPH函数,在IE中创建的表单项内容,在指定name和value时可能会出现我们不希望的结果,这在DHTML手册中已经有过描述了。

(责任编辑:admin)

网学推荐

免费论文

原创论文

浏览:
设为首页 | 加入收藏 | 论文首页 | 论文专题 | 设计下载 | 网学软件 | 论文模板 | 论文资源 | 程序设计 | 关于网学 | 站内搜索 | 网学留言 | 友情链接 | 资料中心
版权所有 QQ:3710167 邮箱:3710167@qq.com 网学网 [Myeducs.cn] 您电脑的分辨率是 像素
Copyright 2008-2015 myeducs.Cn www.myeducs.Cn All Rights Reserved
湘ICP备09003080号