网站导航免费论文 原创论文 论文搜索 原创论文 网学软件 学术大家 资料中心 会员中心 问题解答 原创论文 论文素材 设计下载 最新论文 下载排行 论文上传 在线投稿 联系我们
返回网学首页
网学联系
最新论文 推荐专题 热门论文 素材专题
当前位置: 网学 > 编程文档 > JSP > 正文
【Web Harvest】Web harvest获取XML出现乱码的解决办法
来源:Http://myeducs.cn 联系QQ:点击这里给我发消息 作者: 用户投稿 来源: 网络 发布时间: 12/11/27
下载{$ArticleTitle}原创论文样式

  Web harvest获取XML出现乱码的解决办法:

  现象:

  在Web harvest中使用http请求去获取某个远程的XML,此XML的特征是无文件头(即没有编码描述等关键信息),采用了多种办法去获取,出现乱码,无法解析成我们需要的数据。

  办法:

  (1)最原始办法:使用Java中的URLConnection,InputStream等类读取字节流,构造字符串:

  Java代码

/**  

      *通过URL获取XML,因为在Webharvest获取XML时无法获取正常编码的XML  

      */ 

      URLurl=newURL(link);  

      URLConnectionconnection=url.openConnection();  

      InputStreamin=connection.getInputStream();  

      ListbyteList=newArrayList();  

      byteb=-1;  

      while((b=(byte)in.read())!=-1)  

      {  

        byteList.add(b);  

      }  

      byte[]bytes=newbyte[byteList.size()];  

      for(inti=0;i

      {  

        bytes[i]=byteList.get(i);  

      }  

      /**  

      *输出日志确认其编码  

      */ 

      logger.debug(newString(bytes));  

      logger.debug(newString(bytes,"utf-8"));  

      logger.debug(newString(bytes,"gbk"));  

      logger.debug(newString(bytes,"gb2312")); 

  (2)最好的办法:直接使用dom4j中的SAXReader

  Java代码

/**  

      *通过URL获取XML,因为在Webharvest获取XML时无法获取正常编码的XML  

      */ 

      URLurl=newURL(link);  

      SAXReaderxmlReader=newSAXReader();  

      Documentdoc=xmlReader.read(url); 

  非常简单,连编码都不用管!

  其中:link为需要获取XML的地址

(责任编辑:admin)

网学推荐

免费论文

原创论文

浏览:
设为首页 | 加入收藏 | 论文首页 | 论文专题 | 设计下载 | 网学软件 | 论文模板 | 论文资源 | 程序设计 | 关于网学 | 站内搜索 | 网学留言 | 友情链接 | 资料中心
版权所有 QQ:3710167 邮箱:3710167@qq.com 网学网 [Myeducs.cn] 您电脑的分辨率是 像素
Copyright 2008-2015 myeducs.Cn www.myeducs.Cn All Rights Reserved
湘ICP备09003080号