3 分钟的高速体验 Apache Spark SQL
2023-09-27 14:27:03 时间
“War of the Hadoop SQL engines. And the winner is …?” 这是一个非常好的问题。只要。无论答案是什么。我们都值花一点时间找出 Spark SQL 这个 Spark 里面的家庭成员。
原本Apache Spark SQL 官网上的代码片断(Spark官网上的样例有个通病:不提供完整代码)已经写得算比較清楚,但假设用户全然把它的代码拷贝下来,可能会碰到编译不通过的问题。另外,Spark官网上的样例还有另外一个通病:不提供test data。因此。为了大家能不走弯路、高速体验Spark SQL API。本文将展示一个改写自官网样例的小程序,以及执行结果。
[A 程序]
[B 測试数据]
product.data:
[C 运行]
用 spark-submit 将程序提交到Yarn上运行。
[D 运行结果]
- Console:
- Yarn Web Console:
- Yarn App Log:
[E 小结]
- 注意须要把内部类 Product 定义在main方法外面,否则会引起编译错误
- 直接利用Spark SQL API定义一个“表对象”(SchemaRDD)还是比较简单
- 下一步骤可以是尝试和 HiveQL积分
版权声明:本文博客原创文章,博客,未经同意,不得转载。
相关文章
- Nginx 和 Apache 配置 SSL 文件签名的不同
- 大数据-Hadoop-搭建(二):搭建Hadoop完全分布式集群(在VMware中的Linux虚拟机)【CentOS7】【独立安装Apache Hadoop】
- apache poi操作office文档----java在线预览txt、word、ppt、execel,pdf代码
- Apache Common StringUtils工具类
- org.apache.commons.fileupload.FileUploadBase$SizeLimitExceededException: the request was rejected be
- ***LANMP镜像手册(Apache&Nginx)-lanmp-oneinstack
- Linux下修改Apache即httpd的端口
- 使用apache mod_rewrite方法随机提供payloads
- Apache Mina开发手冊之四
- 对话Apache Hudi VP, 洞悉数据湖的过去现在和未来
- Apache Hudi集成Spark SQL抢先体验
- Apache Hudi和Presto的前世今生
- thinkPhp apache修改hosts 实现访问浏览器域名 访问本地 phpstrom访问