Jsoup获取部分页面数据失败 org.jsoup.UnsupportedMimeTypeException: Unhandled content type. Must be text/*, application/xml, or application/xhtml+xml.
2023-09-11 14:18:06 时间
1 现象
用Jsoup在获取一些网站的数据时,起初获取很顺利,但是在访问抖音的数据是Jsoup报错,应该是请求头里面的请求类型(ContextType)不符合要求。
请求代码如下:
private static void testOuGuanMatch() throws IOException{ Document doc = Jsoup.connect("我的URL").userAgent("Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.15)").timeout(5000).get(); System.out.println(doc); }
能看到我这里设置了请求代理和相应时间。
报错信息如下:
org.jsoup.UnsupportedMimeTypeException: Unhandled content type. Must be text/*, application/xml, or application/xhtml+xml. Mimetype=application/javascript, URL=.... at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:472) at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:424) at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:178) at org.jsoup.helper.HttpConnection.get(HttpConnection.java:167) at calendarSpider.SpiderTest.testOuGuanMatch(SpiderTest.java:174) at calendarSpider.SpiderTest.main(SpiderTest.java:39)
2 方案
添加ignoreContentType(true),修改后代码:
private static void testOuGuanMatch() throws IOException{ Document doc = Jsoup.connect("我的URL").ignoreContentType(true).userAgent("Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.15)").timeout(5000).get(); System.out.println(doc); }
那这里的ignoreContentType(true)看词就知道忽略ContextType的检查
转摘于:https://www.cnblogs.com/parryyang/p/5587929.html
相关文章
- Java&Xml教程(十一)JAXB实现XML与Java对象转换
- java解析XML saxReader.read(xml) 错误:org.dom4j.DocumentException: no protocol
- xml与dataset的数据交互
- XML序列化 判断是否是手机 字符操作普通帮助类 验证数据帮助类 IO帮助类 c# Lambda操作类封装 C# -- 使用反射(Reflect)获取dll文件中的类型并调用方法 C# -- 文件的压缩与解压(GZipStream)
- 一个简单方便的数据拼接模块(支持任意位宽、任意整数倍)
- Google Earth Engine——HydroSHEDS是基于2000年NASA的航天飞机雷达地形任务(SRTM)获得的高程数据
- Google Earth Engine ——Landsat 5 TM合成影像8天/32天/年际归一化植被指数(NDVI)指数数据集
- (转)不格式化硬盘 机密数据也能安全清除 -- 有待机会测试
- 12jqGrid - 加载XML数据
- 浅谈营销中的数据互动
- 16位天才的思维创造让数据科学更简单
- Java数据脱敏框架
- 《BI那点儿事—数据的艺术》目录索引
- XML、XML约束、XML解析、常用的xml解析器(DOM4J)、XPATH
- C# XML 添加,修改,删除Xml节点
- 信息: Loading XML bean definitions from class path resource [bean.xml]
- 【用ddt思想重构项目】Selenium读取XML文件:基于unittest框架,借助ddt模块,使用xml文件作为测试输入
- SQL Server复制表结构和表数据生成新表的语句
- xml中数据存储 <![CDATA[ … ]]>
- 用活大数据让共享单车泛滥而不“成灾”
- 【XML和Java】手写Java程序引用xsd验证xml
- 如何毫不费力地探索您的 IDX 数据集,使用 idx2numpy 库在 Python 中探索原始 MNIST 文件
- C#中对xml数据的读取和写入
- 大数据窥探:关于大数据的15条干货思考
- 大数据会消灭律师这一职业吗?
- 用java解析在OpenStreetMap上下载的地图数据(SAX版,适合比较大的xml文件)
- Java利用JDom解析和传递XML格式数据
- C# 之 数据集SQL Dataset
- CYQ.Data 轻量数据层之路 V3.0版本发布-Xml绝对杀手(三十二)
- 关于 docx 下的 Document 使用,读取段落和表格数据
- 大数据为智慧城市构筑“核心大脑”
- FCN语义分割——直接加载图像数据