《数据科学:R语言实现》——2.4 扫描文本文件
本节书摘来自华章计算机《数据科学:R语言实现》一书中的第2章,第2.4节,作者 丘祐玮(David Chiu),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
2.4 扫描文本文件在之前的教程中,我们介绍了如何使用read.table和read.csv加载数据到R进程中。然而,read.table和read.csv只适用于列数固定,数据不多的情形。为了在数据处理过程中更加灵活,我们会介绍如何使用函数scan从文件中读取数据。
在本教程中,你需要完成之前的教程,并下载snp500.csv到当前目录。
执行下列步骤,扫描CSV文件中的数据。
1.首先,你可以使用函数scan读取snp500.csv中的数据:
2.然后使用mode和str查看加载的数据:
与read.table和read.csv相比,函数scan更加灵活,数据读取也更加高效。这里,我们在what参数中,以列表的形式指定字段名和每个字段的支持类型。在这个例子中,第1个字段是字符类型,其他字段都是数值类型。因此,我们可以给Date列设定两个单(或双)引号,给其他列设定为0。然后,因为我们需要忽略列名行,并自动给字段数少于列数的任何一行添加空字段,我们可以设定skip为1,fill为True。
现在,我们可以使用内置的函数查看数据。这里,我们使用mode获取对象的类型,使用str展示数据的结构。
某些情况下,数据是通过固定宽度分隔,而不是通过固定分隔符分隔的。为了指定每一列的宽度,你可以使用函数read.fwf。
1.首先,你可以使用download.file从作者的GitHub网页上下载weather.op:
2.然后,使用文件编辑器查看数据,如图5所示。
3.通过在widths中指定每列的宽度,在col.names中指定列名,设定skip为1跳过第一行,读取数据:
4.最后,你可以使用函数head和names查看数据:
9月20日云栖精选夜读 | 如何轻松搞定数据科学面试:Python&R语言篇 对于数据科学家来说,工作的一大部分都需要在交互式编程环境中对数据进行处理、分析和可视化。 在过去几年,R语言和Python成了进行数据科学中最炙手可热的两种语言。这两种语言各有优缺点,掌握这两种语言大有益处,但是针对面试者而言,最好的方式是学习其中一种并熟练掌握。
这是R数据科学的读书笔记之一,《R数据科学》是一本教你如何用R语言进行数据分析的书。即便我使用R语言快2年多了,但是读这本书还是受益颇多。
这是R数据科学的读书笔记之一,《R数据科学》是一本教你如何用R语言进行数据分析的书。即便我使用R语言快2年多了,但是读这本书还是受益颇多。
Python赶超R语言,成为数据科学、机器学习平台中最热门的语言? 近日,kdnuggets做了一个关于数据科学、机器学习语言使用情况的问卷调查,他们分析了954个回答,得出结论——Python已经打败R语言,成为分析、数据科学和机器学习平台中使用频率最高的语言。
相关文章
- EF+LINQ事物处理 C# 使用NLog记录日志入门操作 ASP.NET MVC多语言 仿微软网站效果(转) 详解C#特性和反射(一) c# API接受图片文件以Base64格式上传图片 .NET读取json数据并绑定到对象
- 《R语言数据挖掘:实用项目解析》——第1章,第1.4节排序与合并数据框
- Go语言开发的第一步,安装开发环境编写第一个Go程序
- 《数据驱动的网络分析》——6.2 R语言基础知识
- 《数据科学:R语言实战》一第2章 序列的数据挖掘2.1 模式
- swift语言点评十九-类型转化与检查
- 《数据科学R语言实践:面向计算推理与问题求解的案例研究法》一一第1章 基于室内定位系统的位置预测
- 《数据科学R语言实践:面向计算推理与问题求解的案例研究法》一一 1.1 引言
- 《数据科学R语言实践:面向计算推理与问题求解的案例研究法》一一2.8 练习题
- 《数据科学:R语言实现》——1.11 调试函数
- 《数据科学:R语言实现》——2.7 爬取网络数据
- 《数据科学:R语言实现》——3.9 排列数据
- 《数据科学:R语言实现》——3.10 重塑数据
- 4.Django模板语言和分页
- 深入探索Go语言的unsafe包,揭秘它的黑科技和应用场景!
- 为翻译软件提供云端语料库支持,Tmxmall 瞄准了语言领域的大数据
- go(golang)语言处理Excel文件的读写(导入与导出),目的是实现从Excel读取数据自动写入到任何数据库,根据指定的Excel模版能够把数据库的数据导出Excel文件中形成固定格式的报表
- Lisp 家族迎来新成员,函数式语言 Lux 是什么?