zl程序教程

您现在的位置是:首页 >  大数据

当前栏目

【数据】如何用Rselenium在pubmed上Get文章信息(1):环境搭建

数据 如何 环境 搭建 信息 文章 get PubMed
2023-06-13 09:15:24 时间

从网站上下载的原始表格,没有单位信息。但根据我们可以根据上面的DOI和Title去pubmed上搜索获取单位信息,126篇一个个搜索复制粘贴,这样简单繁琐的事情计算机来做是最好的。在这里我想用三次内容讲一下我是如何一步一步Get内容。

原理介绍

简单的说就是在R语言环境中,建立一个虚拟的Foxfire浏览器。这个Rselenium可以模拟我们操作适合的动作,比如鼠标指向网页的某个地方,输入内容,点击某个地方,等等。

环境搭建

1、硬件信息

iMac(MacOS Catalina)

2、软件安装

Rstudio(R 3.5.2):安装过程请问百度

Docker

下载地址1:

https://download.docker.com/mac/stable/Docker.dmg

下载地址2:

https://pan.baidu.com/s/1jElUkiD3xMvgL5AtjFRlyw

安装过程:

a.双击Docker.dmg

b.将Docker拖进应用程序中

c.双击点开图标

安装Foxfire镜像,打开Mac自带终端

sudo docker run -d -p 4445:4444 selenium/standalone-firefox:2.53.0

检查是否已经运行Foxfire镜像

sudo docker ps

这里需要注意Mac运行sudo需要输入用户名密码,在终端界面输入密码的时候是不会显示****的。

打开端口

设置-->安全与隐私-->防火墙关闭

打开Rstudio

install.packages("RSelenium")
library(RSelenium)
remDr <- remoteDriver(port=4445L,browserName = "firefox")
remDr$open()

看到上面的界面恭喜你已经成功的打开了一个虚拟的Foxfire浏览器,知道大家面对这样的界面可能会陌生,我们打开一个链接看看。

gurl<-"https://www.bing.com"remDr$navigate(gurl)remDr$screenshot(display = TRUE)

这样是不是熟悉了很多了呢?

作业

大家可以按照上面的内容自己练习搭建环境,随便输入什么个网址留一个截屏,在公众号回复自己的作业。提交作业人数到10人以上会继续下面的课程。