纵有疾风起
人生不言弃

jsoup解析中文乱码

在使用jsoup爬取网页内容的时候发现获取到的中文有乱码问题,如下所示:

String getUrl = "http://xxxxx.html";Document doc = Jsoup.connect(getUrl).get();
jsoup解析中文乱码插图

一般出现这个情况是由于url指向的页面,实际编码与html中描述的编码不符导致。如:开发时用的GBK编码编写,但html中却写UTF-8。典型的就是在中文Windows下用记事本,写一个UTF-8的html就会出现这个问题。

解决办法:设置编码格式
String getUrl = "http://xxxxx.html";Document doc =  Jsoup.parse(new URL(getUrl).openStream(), "GBK", getUrl);
jsoup解析中文乱码插图1

原文作者技术博客:https://www.jianshu.com/u/ac4daaeecdfe

文章转载于:https://www.jianshu.com/p/be2491a576fd

原著是一个有趣的人,若有侵权,请通知删除

未经允许不得转载:起风网 » jsoup解析中文乱码
分享到: 生成海报

评论 抢沙发

评论前必须登录!

立即登录