网络上经常看到有人问数据分析是学习python好还是r语言好,还有一些争论python好还是r好的文章。每次看到这样的文章我都会想到李舰和肖凯的《数据科学中的r语言》,书中一直强调,工具不分好坏,重要的是解决问题的思路,就算是简单的excel,也能应付数据分析中的大部分问题。再者python和r本来就没有什么好对比的,一门是计算机工程语言,一门是统计语言,只有将两者结合起来,才能发挥更大的威力,不是吗,对于数据分析的人来说,难道不是两样都要掌握的吗?

rpy2是python调用r程序的模块,旨在方便python调用r中的相关函数,而不需要先将数据写入txt再传给r来分析,从而可以做到全流程自动化。在pandas 0.18的模块中也添加了rpy2的支持,进而更方便沟通了python和r的数据流转,构建数据分析的生态系统。

rpy2的安装还是比较麻烦的,试了很多方法,百度了很多网页最终安装成功,做些笔记备忘。

我的安装环境是:

  • win7_64bit
  • python3.5_64位,使用的是anaconda发行版。anaconda发行版集成了很多python的有用的数据分析模块,其使用界面和matlab很相似,用起来很方便,而且还很方便虚拟出不同版本的python环境,对那些既想用python2.7,又想用python3.x的同学来说是很好的选择。
  • r使用的是revolution r open 3.2.3_64bit,这是revolution r现在已经被微软收购了,改为mro。mro和cran的r没有什么区别,只是改进了多进程并行计算的性能,比原生的r确实有一定的性能提升。当然需要mro网站上对应的数学计算库math library,这个在revolution r open的下载界面有。1.下载并安装mro

1.下载并安装mro

安装对应的并行数学计算库(可选)。下载地址是:

2.下载安装anaconda

下载地址是:

3.配置r的环境变量

这是比较重要的一般,很多安装失败的原因就是没有很好配置环境变量。
1. 将r目录添加至path环境变量
path:d:\program files\microsoft\mro\r-3.2.3\bin\x64;
2. 将r.dll添加至path环境变量
path:d:\program files\microsoft\mro\r-3.2.3\bin\x64\r.dll;
3. 设置r_home环境变量
r_home:d:\program files\microsoft\mro\r-3.2.3
4. 设置r_user环境变量
r_user:administrator
r_user就是你电脑的用户名,如果没有设置过用户名就是administrator,可以通过cmd命令行输入net user查看。

4.下载非官方版本的rpy2

为什么要下载非官方版本的rpy2我也不知道,反正我使用pip install ryp2没有成功,缺少对应的编译环境,百度出来的网页很多都是说使用非官方版本的rpy2.
下载地址是: 这是python下包的专用地址
需要下载版本和平台都相对应的whl包,我下的是rpy2-2.9.4-cp36-cp36m-win_amd64.whl,然后使用pip install rpy2-2.9.4-cp36-cp36m-win_amd64.whl安装即可。

5.python调用r

参考让r与python共舞和python中调用r

import rpy2.robjects as robjects
# 此时,有三种方法调用r对象
# 第一种
robjects.r['pi']
# 第二种
robjects.r('pi')
# 这种方法从某种程度上讲是万能的,因为可以将任意大小和长度的r代码写成一个python字符串,之后通过robjects.r('rcode')调用执行
第三种
robjects.r.pi
# 这种方法对于名称中有“点号”的变量会出问题,比如data.frame/read.csv等,所以推荐使用第一种方法
# creat an r function
robjects.r('''
   f <- function(r){pi * r}
   ''')
robjects.r['f'](3)

# internal function in r
robjects.r['ls']()

# another internal function
l = robjects.r['letters']
len(l)
robjects.r['paste'](l, collapse = '-')

# an alternative way of getting 'paste' function in r
# eval the r code
coder = 'paste(%s, collapse = "-")' % (l.r_repr())
robjects.r(coder)

6.pandas调用r

具体参考pandas官方文档–rpy2 / r interface

7.pandas和r的函数对比

具体参考pandas官方文档–comparison with r / r libraries
列出了实现相同功能的pandas和r的代码,很有启发性。
同时也说明,有想法,用什么工具实现都无所谓,纠结要选python还是r确实是舍本逐末了。如果时间不够,精通其中的一门语言,另一门语言能够掌握简单的使用,也就够了。

以后有事时间再详细写写pandas调用r的部分,以它们之间数据来回传输的原理和注意事项。

我把下载的包放到了d盘的programdata

到此这篇关于python调用r语言实例讲解的文章就介绍到这了,更多相关python调用r语言内容请搜索www.887551.com以前的文章或继续浏览下面的相关文章希望大家以后多多支持www.887551.com!