您现在的位置是：首页 > 后端

当前栏目

node爬虫入门

爬虫 Node 入门

2023-09-14 09:00:17 时间

爬虫其实就是模仿浏览器访问页面，然后把页面保存起来备用。

爬虫的方法，直接上代码：

function getUrl(url,success,error){
  let urlObj = urlParser.parse(url);
  let mod = null;
 //判断用是哪个协议，对应用哪个模块
  if(urlObj.protocol=='http:'){
    mod = require('http');
  }else{
    mod = require('https');
  }
  let req = mod.request({
        hostname: urlObj.hostname,
        path: urlObj.path
      },res=>{
      //如果是200表示成功，则把buffer用数组存起来，end的时候发给success回调
      if(res.statusCode==200){
        let arr=[];
        res.on('data',buffer=>{
          arr.push(buffer);
        })
        res.on('end',_=>{
          let b = Buffer.concat(arr);
          success && success(b);
        })
      }
      // 如果是重定向，拿到重定向地址res.headers.location，递归自己
      else if(res.statusCode==301||res.statusCode==302){
        getUrl(res.headers['location'],success,error)
      }
      //其他则是出错了
      else{
        error && error(res.statusCode);
      }
  })
  req.end();
  req.on('error',err=>{
    error && error(err);
  })
}

上面的方法普通页面够用了，但是有些页面有些奇怪，例如天猫，编码是gbk，所以我们需要用把buffer进行gbk解码：

const gbk = require('gbk');
//把gbk Buffer解码并编码成utf8字符串
gbk.toString('utf-8',buffers)

获得html字符串后，我们通常的做法就是写正则来匹配,这样无疑是极其麻烦的，我们有一个node组件叫jsdom就让我们在node里面实现了获取dom的操作：

const jsdom = require('jsdom').JSDOM;

let document = (new jsdom(htmlStr)).window.document;

//之后可以用queryselector、getElementById。。。。。

猜你喜欢

如何使用Python实现图像融合及加法运算
java笔记二：final关键字用法总结
LoadRunner 技巧之脚本设计
云原生DevOps篇：Jenkins集成Kubernetes实现动态Agent构建机制
【华为OD机试 2023】农场施肥不爱施肥的小布（C++ Java JavaScript Python）
接口测试笔记二
几张图就把 Kubernetes Service 掰扯清楚了
[AngularJS + Webpack] Requiring CSS & Preprocessors
纯净Python环境的安装以及配置PyCharm编辑器
D3DXPlaneFromPointNormal 函数
sonar代码扫描bug:Use try-with-resources or close this "FileInputStream" in a "finally" clause.
表单一次性上传多个文件
Kubernetes Helm入门指南
交换机TRUNK口连接电脑怎么上网
【youcans 的图像处理学习课】4. 图像的叠加与混合
【Redis】五大数据结构及其常用指令
OpenCV每日函数结构分析和形状描述符(4) findContours函数寻找轮廓

相关主题

Java爬虫
用python写爬虫
网络爬虫原理
爬虫实例
Python爬虫框架Scrapy
node.js 之爬虫
爬虫系统

zl程序教程

当前栏目

node爬虫入门

相关文章