您现在的位置是：首页 > 后端

当前栏目

NodeJs request爬虫数据乱码解决方法

Nodejs 方法爬虫数据解决乱码 request

2023-09-27 14:27:14 时间

文章目录

1.引入
2.爬虫举例流程
3.NodeJs乱码错误分析
4.解决方法

1.引入

本人初识小程序云开发与nodejs不久，文中可能存在错误说法和术语，欢迎指正。
最近写微信小程序云函数，需要用nodejs爬取一个网站的信息，但是结果是一个挺意外的乱码，在自己花费挺多时间下解决了，在此记录下来。

2.爬虫举例流程

用fiddler抓取想要爬取的请求，得到原生的请求header和参数
用nodejs的request模块写模拟请求的代码，把fiddler得到的header写入其中（用百度网址测试）
运行后，返回的body却是乱码的

用python代码爬取测试

发现相同的代码，python却不会乱码

3.NodeJs乱码错误分析

在经过很多时间测试后，发现了nodejs乱码问题所在。是因为header中设置了
在这里插入图片描述
百度给出的解释

于是知道这个是所属浏览器的设置，而nodejs的request如果在header中设置gzip编码类型，就会出现乱码情况，也许是不支持吧。

4.解决方法

在nodejs代码中把Accept-Encoding置为空使用默认所支持的编码，就正常显示了
在这里插入图片描述

var request = require('request');
var header = {
     'Connection': 'keep-alive',
     'content-type': 'application/json',
     'Accept': '*/*',
     'Sec-Fetch-Site': 'cross-site',
     'Sec-Fetch-Mode': 'cors',
     'Sec-Fetch-Dest': 'empty',
    'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1 wechatdevtools/1.05.2204250 MicroMessenger/8.0.5 Language/zh_CN webview/',
}
request({
	url: 'https://www.baidu.com/',
	method: 'get',
	headers: header
}, function(error, response, body) {
	console.log(body)
});

猜你喜欢

Oracle内存管理方式由amm切换为asmm
数组
nginx日志轮替
java反射教程
批量修改主机密码并发送到邮箱
【MySQL数据库基本操作(二)：环境变量的配置，DOS界面的使用】
MQTT协议简介及协议原理
shiro实现授权
coreldraw2022新版本新功能介绍cdr2022
CV-CNN-2015：GoogleNet-V3【贡献：卷积核分解（Factorization）减少参数量，比如将7x7分解成两个一维的卷积（1x7,7x1）】【避免表达瓶颈，更深】
VSCode中使用Scss/Sass及其基本语法
python常用模块
dotnet 在析构函数调用 ThreadLocal 也许会抛出对方已释放
Android和iOS的设计不同之处
英语学习五大法则
线性表的基本操作（C语言实现）
我的Java开发学习之旅------>Workspace in use or cannot be created, choose a different one.--错误解决办法
Android利用广播监听设备网络连接(断网)的变化情况
LeetCode_随机化_中等_380. O(1) 时间插入、删除和获取随机元素

相关主题

nodejs服务
NodeJS学习笔记
Windows跟新nodejs
Nodejs+express 4.x
nodejs 路径
NodeJs框架
NodeJs之http
nodeJS之URL
mongodb+nodejs
nodejs与npm
nodejs之路由

zl程序教程