Spark-TFRecord:Spark将完全支持TFRecord
Spark 支持 完全
2023-09-27 14:26:47 时间
Spark-TFRecord:Spark将完全支持TFRecord
共同作者: Jun Shi, Mingzhou Zhou
简介
在机器学习社区中,Apache Spark 支持SQL高效操作而被广泛用于数据处理,而TensorFlow是业界最主流的人工智能框架。尽管这两种工具都支持一些数据格式,但是Spark并不完全支持TFRecord—TensorFlow的原生数据格式。虽然以前试图在这两个系统之间架起桥梁(例如,Spark-Tensorflow-Connector),但现有的实现忽略了Spark提供的一些重要特性。
在这篇文章中,我们介绍Spark的一个新的数据源Spark-TFRecord 。Spark-TFRecord的目标是为Spark中的原生TensorFlow数据格式提供全面支持。这个项目的目的是在Spark数据源社区中将TFRecord作为一等公民,类似于其他内部格式如Avro、JSON、Parquet等。Spark-TFRecord不仅提供了简单的函数&#x
相关文章
- 一次 Spark SQL 性能提升10倍的经历(转载)
- Spark机器学习系列之13: 支持向量机SVM
- 继Cloudera后 MapR宣布完全支持Spark
- Spark-构建基于Spark的推荐引擎
- 第134课: Spark Streaming总结
- 第135课: Spark面试经典系列之数据倾斜:数据倾斜是多么痛?!
- 《Spark商业案例与性能调优实战100课》第15课:商业案例之纯粹通过DataSet进行电商交互式分析系统中各种类型TopN分析实战详解
- 大数据Spark “蘑菇云”行动第52课: Spark大型项目广告点击项目数据建模 项目!!!大项目!!!超大型大数据项目!!!
- Spark 生产开发环境搭建 Git + Maven + IDEA
- 生产环境实战spark (1)Linux ubuntu系统安装
- 实战|使用Spark Structured Streaming写入Hudi
- 大数据Spark(三十三):SparkSQL分布式SQL引擎
- 大数据Spark(三十二):SparkSQL的External DataSource
- 大数据Spark(九):Spark On Yarn两种模式总结
- Spark运行架构
- 【spark】spark提交任务后获取applicationId