您现在的位置是：首页 > 数据库

当前栏目

✨[hadoop3.x]新一代的存储格式Apache Arrow(四)

存储数据

2023-04-18 12:51:54 时间

文章目录
前言
历史文章
新一代的存储格式Apache Arrow
Arrow简介
Arrow是如何提升数据移动性能的
后记

前言

目前博客Hadoop文章大都停留在Hadoop2.x阶段，本系列将依据黑马程序员大数据Hadoop3.x全套教程，对2.x没有的新特性进行补充更新，一键三连加关注，下次不迷路！

历史文章

[hadoop3.x系列]HDFS REST HTTP API的使用(一)WebHDFS

[hadoop3.x系列]HDFS REST HTTP API的使用(二)HttpFS

[hadoop3.x系列]Hadoop常用文件存储格式及BigData File Viewer工具的使用(三)

✨[hadoop3.x]新一代的存储格式Apache Arrow(四)

新一代的存储格式Apache Arrow

Arrow简介

l Apache Arrow是一个跨语言平台，是一种列式内存数据结构，主要用于构建数据系统。Apache Arrow在2016年2月17日作为顶级Apache项目引入。

l Apache Arrow发展非常迅速，并且在未来会有更好的发展空间。它可以在系统之间进行高效且快速的数据交换，而无需进行序列化，而这些成本已与其他系统（例如Thrift，Avro和Protocol Buffers）相关联。

l 每一个系统实现，它的方法（method）都有自己的内存存储格式，在开发中，70%-80%的时间浪费在了序列化和反序列化上。

l Arrow促进了许多组件之间的通信。例如，使用Python（pandas）读取复杂的文件并将其转换为Spark DataFrame。

Arrow是如何提升数据移动性能的

l 利用Arrow作为内存中数据表示的两个过程可以将数据从一种方法“重定向”到另一种方法，而无需序列化或反序列化。例如，Spark可以使用Python进程发送Arrow数据来执行用户定义的函数。

l 无需进行反序列化，可以直接从启用了Arrow的数据存储系统中接收Arrow数据。例如，Kudu可以将Arrow数据直接发送到Impala进行分析。

以将Arrow数据直接发送到Impala进行分析。

l Arrow的设计针对嵌套结构化数据（例如在Impala或Spark Data框架中）的分析性能进行了优化。

后记

博客主页：https://manor.blog.csdn.net 本文由 manor 原创，首发于 CSDN博客 Hadoop系列文章会每天更新！✨

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程

当前栏目

✨[hadoop3.x]新一代的存储格式Apache Arrow(四)

文章目录
前言
历史文章
新一代的存储格式Apache Arrow
Arrow简介
Arrow是如何提升数据移动性能的
后记

前言

历史文章

新一代的存储格式Apache Arrow

Arrow简介

Arrow是如何提升数据移动性能的

后记

相关文章

当前栏目

✨[hadoop3.x]新一代的存储格式Apache Arrow(四)

文章目录前言历史文章新一代的存储格式Apache ArrowArrow简介Arrow是如何提升数据移动性能的后记

前言

历史文章

新一代的存储格式Apache Arrow

Arrow简介

Arrow是如何提升数据移动性能的

后记

相关文章

文章目录
前言
历史文章
新一代的存储格式Apache Arrow
Arrow简介
Arrow是如何提升数据移动性能的
后记