zl程序教程

您现在的位置是:首页 >  后端

当前栏目

【收藏】spark中map与mapPartitions区别

MapSpark 区别 收藏
2023-09-14 09:01:57 时间

两个函数最终处理得到的结果是一样的

mapPartitions比较适合需要分批处理数据的情况,比如将数据插入某个表,每批数据只需要开启一次数据库连接,大大减少了连接开支,伪代码如下:

    arrayRDD.mapPartitions(datas=>{
      dbConnect = getDbConnect() //获取数据库连接
      datas.foreach(data=>{
        dbConnect.insert(data) //循环插入数据
      })
      dbConnect.commit() //提交数据库事务
      dbConnect.close() //关闭数据库连接
    })

https://www.cnblogs.com/wbh1000/p/9846527.html