您现在的位置是：首页 > 硬件

当前栏目

《机器学习与数据科学（基于R的统计学习方法）》——2.8　读取JSON文件

2023-09-11 14:17:45 时间

本节书摘来异步社区《机器学习与数据科学（基于R的统计学习方法）》一书中的第2章，第2.8节，作者：【美】Daniel D. Gutierrez（古铁雷斯），更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.8 读取JSON文件

为机器学习项目读取数据时，另一种你可能遇到的数据文件类型是JSON，也就是JavaScript Object Notation。JSON是基于文本的开源标准，为创造人类可读的数据交换而设计。它经常和流行的Ajax网络编程技术一同使用。R有两个流行的包能够连接JSON数据文件：rjson和RJSONIO。rjson没有使用R的S3或S4系统，所以它不太容易扩展。同时，rjson也不使用向量化操作，这导致它处理重要数据时速度很慢。同样的，在将JSON数据读入R时，rjson也有点慢并且不能扩展到海量数据。因此，在本节中我们会使用RJSONIO。

我们提供了一个把JSON文件读进R的数据连接案例，第一步需要获得一个URL来下载SFParkingMeters数据集的JSON版本（JSON是San Francisco Data网站提供的另一种文件类型）。大多数的工作由RJSONIO包中的fromJSON()函数来完成。这个函数能将JSON数据内容转换成R对象，以便进行更深入的分析。

下面的R代码首先将JSON URL保存在变量fileURL中。下一步，我们在fromJSON()函数中提交URL，返回数据存储在一个嵌套列表的实体中，包括两个基本的部分：meta和data。我们只需要data部分，所以我们把它存储在列表实体parkdata中。这里的窍门是知道怎样将嵌套列表拆成变量的单独值。为了做到这一点，你需要用parkdata[[1]]来看第一行的观测值，尝试识别一些数据，然后标注这些值的索引，以便后续进行查阅来构造一个数据框。我们可以使用列表处理函数sapply()将数据从列表中抽取出来。最后，我们需要构造一个新的数据框park_df，里面包含初识JSON文件的3个变量：CAP_COLOR、METER_TYPE和STREETNAME。现在，JSON数据以一种合适的数据框的形式存在，我们可以对数据进行常用的分析：

 library(RJSONIO)

 fileURL - "https://data.sfgov.org/api/views/7egw-qt89/rows. json?accessType=DOWNLOAD"

 parkdata - fromJSON(fileURL)[[2]]

 park_df = data.frame(

 CAP_COLOR = sapply(parkdata, function(x) x[[12]]),

 METER_TYPE = sapply(parkdata, function(x) x[[13]]),

 STREETNAME = sapply(parkdata, function(x) x[[20]]) 

 head(park_df)

 CAP_COLOR METER_TYPE STREETNAME

1 Grey SS CHESTNUT ST

2 Green SS CHESTNUT ST

3 Yellow SS CHESTNUT ST

4 Grey SS COLUMBUS AVE

5 Grey SS COLUMBUS AVE

异步社区异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区，也是国内领先的IT专业图书社区，致力于优质学习内容的出版和分享，实现了纸书电子书的同步上架，于2015年8月上线运营。公众号【异步图书】，每日赠送异步新书。

猜你喜欢

【3】docker命令集
fnmatch模块的使用
[PHP]防止表单重复提交的几种方法
C# 用Linq实现DataTable实现重复数据过滤
Android4.2.2由于越来越多的物理按键（frameworks）
linux基本功系列之sudo命令实战一
[PC] PHPCMS配置文件的读取
FPGA 20个例程篇：14.千兆网口实现ICMP、UDP通信协议（下）
WPF 装饰器（Adorner）
数字IC设计——数组、存储器（Memory）的定义及Verilog语言实现（二）(存储器的读、取、及初始化赋值)
深入理解Spring Redis的使用 (三)、使用RedisTemplate的操作类访问Redis
【LeetCode Python实现】49. 字母异位词分组（中等）
【BUUCTF】[GXYCTF2019]Ping Ping Ping 1
stopPropagation() 方法
zip压缩解决文件名中文乱码问题
获取mongo 数据大小及collection大小
C语言printf()输出格式大全
在OpenCV里用kNN实现MNIST
[ARIA] Accessible modal dialogs

相关主题

文件和文件流
一、文件文件
机器学习-SVM
机器学习32问
机器选择
数据分析和机器学习
SQLSERVER文件和文件组
Python机器学习库
机器学习-决策树
【机器学习】：入门
机器学习笔记（一）
【机器学习】2、SVM
机器学习算法总结
机器学习算法比较
机器学习与R语言
文件和文件组

zl程序教程

当前栏目

《机器学习与数据科学（基于R的统计学习方法）》——2.8　读取JSON文件

相关文章

当前栏目

《机器学习与数据科学（基于R的统计学习方法）》——2.8 读取JSON文件

相关文章

《机器学习与数据科学（基于R的统计学习方法）》——2.8　读取JSON文件