《数据科学:R语言实现》——2.6 从数据库中读取数据
本节书摘来自华章计算机《数据科学:R语言实现》一书中的第2章,第2.6节,作者 丘祐玮(David Chiu),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
2.6 从数据库中读取数据由于R会把数据读入内存中,因此这对于处理和分析小型数据集很合适。然而,由于企业每天积累的数据量要比个人的多得多,数据库文档在存储和分析大型数据时就变得更加常用。为了使用R访问数据库,我们可以使用RJDBC、RODBC或者RMySQL作为通信桥梁。在这一部分中,我们会介绍如何使用RJDBC连接存在数据库中的数据。
执行下列步骤,使用RJDBC连接R和MySQL。
1.首先,我们需要安装加载RJDBC程序包:
2.然后我们可以从链接 https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.0.8.zip 下载MySQL的JDBC驱动。
3.解压下载的mysql-connector-java-5.0.8.zip,并把解压文件mysql-connector-java-5.0.8-bin.jar放在对应的位置。例如,在作者的计算机上,解压的.jar文件放在C:Program FilesMySQL路径下。
4.接着,我们可以下载MySQL驱动,以便连接MySQL:
5.我们可以使用注册的MySQL驱动,建立MySQL连接:
6.使用基本操作,从连接中获取表列:
7.使用SELECT操作获取数据:
8.最后,我们从MySQL断开连接:
R可以使用两大标准访问数据库,即ODBC和JDBC。JDBC(又称Java数据库连接)由一系列Java实现的类和接口组成,它们允许Java和数据库间直接通信。另外,ODBC(又称公开数据库连接)是由微软开发的标准接口。
要比较两个标准,ODBC在输入和输出数据方面性能更优;但是它也是平台依赖的。换句话说,在你的程序运行之前,你必须为不同的操作系统配置连接。相反,JDBC是平台独立的,意味着写好的程序可以在任何操作系统上运行。
要使用RJDBC连接R和MySQL,我们首先需要从CRAN安装加载RJDBC程序包。RJDBC提供了接口来连接数据库。 因为JDBC是使用Java实现的,在使用RJDBC之前,你需要安装rJava。
接着,我们从MySQL的官方下载网站下载MySQL Connector/J,它是MySQL的官方JDBC驱动。解压.zip文件(或.tar文件后),我们把文件放在合适的路径下(你可以把.jar文件添加到类路径下)。现在我们可以编写R程序来访问数据库了。
在我们的R脚本中,我们在提交任何查询请求之前,首先需要注册和初始化MySQL驱动。这里,我们需要指定驱动的类名,com.mysql.jdbc.Driver(不同的数据库有不同的类名),以及.jar文件mysqlconnector-java-5.0.8-bin.jar。我们可以在.jar文件中找到类 。接着,我们使用注册的驱动建立数据库连接。这里,我们需要提供连接字符串(jdbc:mysql://localhost:3306/finance)、用户名(root)和密码(test)来访问数据库。因为我们的MySQL服务器安装和运行在本地主机上,我们可以设计一个连接字符串"jdbc:mysql://localhost:3306/finance" 。3306是默认的MySQL端口,finance是我们的目标数据库。
连接建立以后,我们可以给数据库提交SQL请求。我们首先使用dbListTables命令列出finance数据库上的表。然后,我们创建名为majortrade的表,并使用insert语句把snp500.csv中的数据记录插入majortrade表中。然后我们使用select语句获取数据库中的数据。最后,要释放连接,我们需要使用dbDisconnect命令。
在R中,你也可以使用RODBC和RMySQL来连接数据库。在这一部分中,我们会介绍如何通过RMySQL访问数据库。执行下面的步骤,安装加载RMySQL程序包,然后给MySQL数据库提交查询。
1.我们需要安装加载RMySQL程序包:
2.我们可以使用合法的用户名和密码访问MySQL:
3.现在,我们可以给数据库提交查询,并从finance数据库中选取交易数据:
9月20日云栖精选夜读 | 如何轻松搞定数据科学面试:Python&R语言篇 对于数据科学家来说,工作的一大部分都需要在交互式编程环境中对数据进行处理、分析和可视化。 在过去几年,R语言和Python成了进行数据科学中最炙手可热的两种语言。这两种语言各有优缺点,掌握这两种语言大有益处,但是针对面试者而言,最好的方式是学习其中一种并熟练掌握。
这是R数据科学的读书笔记之一,《R数据科学》是一本教你如何用R语言进行数据分析的书。即便我使用R语言快2年多了,但是读这本书还是受益颇多。
这是R数据科学的读书笔记之一,《R数据科学》是一本教你如何用R语言进行数据分析的书。即便我使用R语言快2年多了,但是读这本书还是受益颇多。
Python赶超R语言,成为数据科学、机器学习平台中最热门的语言? 近日,kdnuggets做了一个关于数据科学、机器学习语言使用情况的问卷调查,他们分析了954个回答,得出结论——Python已经打败R语言,成为分析、数据科学和机器学习平台中使用频率最高的语言。
相关文章
- mysql数据库数据同步/主从复制的配置方法
- [java] - 数据库连接工具类
- linux 中对 mysql 数据库的基本命令
- RMAN还原32位数据库到64位实例的错误处理
- SQL server 常用的数据库 DDL语言
- 如何使用PLSQL Developer从oracle数据库 导入导出数据
- 如何备份sqlserver2000的数据库
- SAP CRM中间件下载时数据库表CRMATAB为空的处理方法
- 数据库(mysql oracle)学习小结
- 操作系统的时区设置会影响数据库查询SYSDATE和SYSTIMESTAMP的值
- PostgreSQL的学习心得和知识总结(一百二十一)|词法级自上而下完美实现Oracle数据库PL/SQL过程语言的 for in list 的实现方案
- MVC jsp+servlet+javabean 连接Mysql数据库測试demo
- 深度解读Facebook刚开源的beringei时序数据库——数据压缩delta of delta+充分利用内存以提高性能
- MYSQL数据库篇之查看当前数据库的版本编号
- MySQL数据库篇之mysql的快速启动和停止
- 【数据库MongoDB的学习】
- Oracle的学习心得和知识总结(八)|Oracle数据库PL/SQL语言顺序控制语句之GOTO和NULL语句技术详解