【Web Harvest】Web harvest获取XML出现乱码的解决办法

当前位置：网学 > 编程文档 > JSP > 正文

来源：Http://myeducs.cn 联系QQ：

作者：用户投稿来源：网络发布时间： 12/11/27

　　Web harvest获取XML出现乱码的解决办法：

　　现象：

　　在Web harvest中使用http请求去获取某个远程的XML，此XML的特征是无文件头(即没有编码描述等关键信息)，采用了多种办法去获取，出现乱码，无法解析成我们需要的数据。

　　办法：

　　(1)最原始办法：使用Java中的URLConnection，InputStream等类读取字节流，构造字符串：

　　Java代码

/** 　

　　　　　　*通过URL获取XML,因为在Webharvest获取XML时无法获取正常编码的XML 　

　　　　　　*/　

　　　　　　URLurl=newURL(link); 　

　　　　　　URLConnectionconnection=url.openConnection(); 　

　　　　　　InputStreamin=connection.getInputStream(); 　

　　　　　　ListbyteList=newArrayList(); 　

　　　　　　byteb=-1; 　

　　　　　　while((b=(byte)in.read())!=-1) 　

　　　　　　{ 　

　　　　　　　　byteList.add(b); 　

　　　　　　} 　

　　　　　　byte[]bytes=newbyte[byteList.size()]; 　

　　　　　　for(inti=0;i

　　　　　　{ 　

　　　　　　　　bytes[i]=byteList.get(i); 　

　　　　　　} 　

　　　　　　/** 　

　　　　　　*输出日志确认其编码 　

　　　　　　*/　

　　　　　　logger.debug(newString(bytes)); 　

　　　　　　logger.debug(newString(bytes,"utf-8")); 　

　　　　　　logger.debug(newString(bytes,"gbk")); 　

　　　　　　logger.debug(newString(bytes,"gb2312"));　

　　(2)最好的办法：直接使用dom4j中的SAXReader

　　Java代码

/** 　

　　　　　　*通过URL获取XML,因为在Webharvest获取XML时无法获取正常编码的XML 　

　　　　　　*/　

　　　　　　URLurl=newURL(link); 　

　　　　　　SAXReaderxmlReader=newSAXReader(); 　

　　　　　　Documentdoc=xmlReader.read(url);　

　　非常简单，连编码都不用管！

　　其中：link为需要获取XML的地址

(责任编辑：admin)

点击进入论坛和大家一起交流设计,分享设计素材,结交设计朋友

上一篇资讯：主流Java EE应用服务器横向对比分析

下一篇资讯： [linux]linux下集成apache和tomcat时可能用到的命令

网学推荐

免费论文

原创论文

文章排行榜

· 数据库连接池Java实现小结

· 用连接池提高Servlet访问数据库的效

· JSP数据库连接大全

· Jsp中调用Oracle存储过程的小例子

· 利用weblogic的POOL（连接池）连接

· JSP数据库操作例程

· JDBC专题介绍

· 基于JSP实现数据库中图片的存储与显

· 利用DWR开发基于Ajax的文件上载por

· 解决JSP开发Web程序中文显示三种方

· JSP结合XML+XSLT将输出转换HTML

· JSP中有关时间和日期类的使用

· 利用Tomcat建立多个Web Server的方

· JSP开发Web程序中的中文问题

· Java Server Pages (JSP) 标准标记

· Tomcat的SSL网站发布

· 什么是resin

· spring+jsp+mysql的gbk方案中避免乱

相关资讯

相关文章

相关专题

网学推荐

免费论文

原创论文

文章排行榜