Spark从HDFS上读取JSON数据
2023-09-11 14:20:30 时间
代码如下:
import org.apache.spark.sql.Row; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.VoidFunction; import org.apache.spark.sql.DataFrame; import org.apache.spark.sql.SQLContext; public class QueryHDFSData { static SparkConf sparkConf = new SparkConf().setAppName("HDFSQuery").setMaster("local[2]"); static JavaSparkContext sc = new JavaSparkContext(sparkConf); static SQLContext sqlContext = new SQLContext(sc); public static void main(String[] args){ // JavaRDD<String> poi = sc.textFile("hdfs://node2:9000/user/flume/events/2015-11-27-21/events-.1448629506841"); DataFrame df = sqlContext.read().json("hdfs://node2:9000/user/flume/events/2015-11-26-21/events-.1448543965316"); // 打印模式 df.printSchema(); // 将数据框架注册成一个表 df.registerTempTable("poi"); // 使用sql语句从表中读取数据 DataFrame poi = sqlContext.sql("SELECT * FROM poi WHERE cid=57425749418"); JavaRDD<Row> row = poi.javaRDD(); row.foreach(new VoidFunction<Row>(){ @Override public void call(Row r) throws Exception { System.out.println(r.mkString()); } }); } }
相关文章
- PHP如何自动识别第三方Restful API的内容,自动渲染成 json、xml、html、serialize、csv、php等数据
- 怎样按一定时间间隔跳跃查询数据?
- JMETER从JSON响应中提取数据
- Android数据存储(二)----PreferenceFragment详解
- 四种常见的 POST 提交数据方式(application/x-www-form-urlencoded,multipart/form-data,application/json,text/xml)
- ASP.NET MVC3中Controller与View之间的数据传递总结
- thinkphp6:自定义异常处理使统一返回json数据(thinkphp6.0.5 / php 7.4.9)
- IOS中JSON数据的解析
- jmeter: beanshell后置处理程序,清空文件和保存json提取器提取的数据到文件中
- reactjs typescript数据传递
- Atitit 获取多媒体mp3 mp4 m4a元数据 G:桌面安装paidashibinffprobe.exe ffprobe -i 1.flv -print_format json -sh
- NLP之TM之LDA:利用LDA算法瞬时掌握文档的主题内容—利用希拉里邮件数据集训练LDA模型并对新文本进行主题分类
- Python爬虫基础讲解:数据持久化——json 及 CSV模块简介
- 【阶段二】Python数据分析Pandas工具使用07篇:探索性数据分析:数据的描述:数据的集中趋势
- Gson解析第三方提供Json数据(天气预报,新闻等)
- linux下socket服务端简单例,多线程,超时退出,长时间没数据就退出,让客户端有需要再重新发起连接
- 【iOS】Plist-XML-JSON数据解析
- 苏宁基于服务层知识图谱的真假告警判定——本质上就是数据标注后 看上报事件和标注的误报、非误报事件相似度来消噪
- 动作识别0-02:mmaction2(SlowFast)-官方数据训练测试-ucf101
- jQuery ajax读取本地json文件_jQuery请求本地JSON文件,在谷歌浏览器运行时报跨域错误_Vscode使用Live Server