R语言和大数据
R3.3版本会出现各种so不存在的问题,退回去到R3.1版本时候就顺利安装。
在安装R环境之前,先安装好中文(如果没有的话图表中显示汉字成框框了)和tcl/tk包(少了这个没法安装sqldf)
sudo yum install fonts-chinese tcl tcl-devel tclx tk tk-devel -y
安装中文字体后重新加载 service xfs reload (不过在有台机器上总是失败,后来重启机器OK)
sudo service xfs reload
有些包会需要rgl,调用opengl的库,所以还要安装opengl包
sudo yum install mesa-libGLU mesa-libGLU-devel -y
sudo yum install gcc-gfortran gcc gcc-c++ readline-devel libXt-devel -y
wget --no-check-certificate https://stat.ethz.ch/CRAN/src/base/R-3/R-3.1.0.tar.gz
tar xvf R-3.1.0.tar.gz
./configure --enable-R-shlib=yes --enable-BLAS-shlib=yes --with-lapack --with-libpng --with-x=no --with-tcltk
sudo sh -c "make"
sudo sh -c "make install"
sudo R CMD javareconf JAVA_HOME=$JAVA_HOME
进入到r中进行
install.packages(rJava)
选择22
安装DBI
install.packages("DBI")
选择22
安装RSQLite
install.packages("RSQLite")
选择22
配置 odps_config.ini
project_name=myproject
access_id= 这里输入Access ID,不带尖括号
access_key= 这里输入Access Key,不带尖括号
end_point=http://service.odps.aliyun-inc.com/api
验证
Sys.getenv(RODPS_CONFIG);
最后安装RODPS包
install.packages(RODPS,repos=http://odps.alibaba.com/rodps)
R装在工作的笔记本电脑上,由于内存的限制,只能用于一些很小的数据集的分析,所以更好的方式是,在Linux上配置一个R加rstudio-server,然后可以通过web直接访问R的功能。
下载rstudio-server的rpm包安装即可
wget http://download2.rstudio.org/rstudio-server-0.97.551-x86_64.rpm
rpm -ivh --nodeps rstudio-server-0.97.551-x86_64.rpm
启动命令
坑爹的是启动失败并没有任何错误提示,在/var/log/messages找到错误信息
安装时如果提示缺少libR.so;使用make unsintall卸载,然后重新安装一次R,指定了enable-R-shlib以后就不再报错。
启动正常以后ps aux能够看到/usr/lib/rstudio-server/bin/rserver
就说明已经启动了
配置文件位于/etc/rstudio/rserver.conf
www-port=80,80是默认的http服务端口号。
rsession-ld-library-path=/opt/local/lib:/opt/local/someapp/lib 指定额外的库地址
rsession-which-r=/usr/local/bin/R 指定R软件位置
auth-required-user-group=rstudio_users 限制可登陆R用户
rsession-memory-limit-mb=4000 限制使用的最大内存
rsession-stack-limit-mb=10 限制最大的栈大小
rsession-process-limit=100 限制最多进程数
session-timeout-minutes=30 进程超时时间
r-libs-user=~/R/packages 设置默认的R包
limit-file-upload-size-mb=100 设置最大的上传文件大小
r-cran-repos=http://cran.case.edu/ 设置默认的CRAN
打开localhost测试地址;
此外,还需要设置环境变量才可以访问,使用下面命令设置当前session的环境变量
Sys.setenv(RODPS_CONFIG ="odps_config.ini")
library(RODPS_CONFIG)
如下图

R还是把数据load到本地进行计算的,这样的方式在大数据时代多少显得落伍。目前R和hadoop结合的有rhadoop、rhive、rhbase、sparkr等等,rhive和rodps采用的方法是类似的,用lib结合接口进行访问。比较彻底的是sparkR,在api和运行时做了修改。使用R或Python的DataFrame API能获得和Scala近乎相同的性能。
调用MaxCompute数据方面,可以先把语言转换为SQL脚本在调用。
文章转自xiamingchao
欢迎加入“数加·MaxCompute购买咨询”钉钉群(群号: 11782920)进行咨询,群二维码如下:
图解大数据 | 大数据生态与应用导论 随着互联网高速发展,网络数据呈现出指数级别的快速增长,针对海量数据处理的大数据解决方案应运而生。ShowMeAI将在接下来的内容中逐步展开讲解大数据生态工具的应用,以及大数据的处理分析挖掘方法。
大数据之数据挖掘的玉女心经 数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合,在一个大型数据库中,自动的发现有用信息的过程,还具有预测未来观测结果的能力。数据挖掘的对象是数据,所以离开数据,挖掘无从谈起。现将我学习《数据挖掘导论》的笔记写出来,巩固一下知识。 一、数据类型。 数据对象有其它的名字,如记录,点,向量,模式,事件,案例,样本,观测或实体。
大数据入门干货 首先,提及大数据一词的概念。大数据本质还在于数据,但是它有着新的特征亮点。包括:数据来源广,数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件等)、数据量大(最少也是TB级别的、甚至可能是PB级别)、数据增长速度快等等。
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。
隐林 阿里云大数据产品专家,擅长MaxCompute、机器学习、分布式、可视化、人工智能等大数据领域;
相关文章
- 大数据专业学什么,应该学习什么语言
- 【R语言】heatmap显示样本类型
- 数据分享|R语言逻辑回归、线性判别分析LDA、GAM、MARS、KNN、QDA、决策树、随机森林、SVM分类葡萄酒交叉验证ROC|附代码数据
- 1.Go语言之标准库学习记录(1)
- 西门子scl语言编程教程_西门子scl编程
- RUST 语言特性之所有权
- R语言建立和可视化混合效应模型mixed effect model|附代码数据
- 【视频】主成分分析PCA降维方法和R语言分析葡萄酒可视化实例|数据分享|附代码数据
- 系列文章| R语言分布滞后线性和非线性模型DLM和DLNM建模应用|附代码数据
- 数据分享|R语言分析上海空气质量指数数据:kmean聚类、层次聚类、时间序列分析:arima模型、指数平滑法|附代码数据
- 跟着Molecular Plant学作图:R语言circlize包画圈图展示基因组的一些特征
- R语言分布滞后非线性模型(DLNM)研究发病率,死亡率和空气污染示例|附代码数据
- R语言使用bootstrap和增量法计算广义线性模型(GLM)预测置信区间|附代码数据
- R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集|附代码数据
- 【C 语言】文件操作 ( 学生管理系统 | 插入数据 | 查询数据 | 删除数据 )
- 原达摩院大模型 M6 带头人杨红霞加入字节,语言生成大模型再迎新玩家
- R语言关联规则挖掘apriori算法挖掘评估汽车性能数据
- 编写Linux编程:以何种语言进行编程?(linux用什么语言)
- 多语言编程必备的十大 Vim 插件
- 轻量级标记语言 Markdown 欲标准化
- C语言编程好帮手,Linux IDE推荐(c语言linuxide)
- c语言swap(a,b)值交换的4种实现方法
- GO语言标准错误处理机制error用法实例