您现在的位置是：首页 > 数据库

当前栏目

40. R 数据整理（十一：用purrr包实现更花样的匿名函数使用）

数据

2023-04-18 14:59:33 时间

感觉purrr 包的函数非常像py 中的匿名函数相关的函数。

而功能上，其起到的作用更像是简化和丰富了apply 家族函数的调用。

1. map 族

其实map 除了对向量有用，也可以作用于数据框或矩阵类型，相当于把其中的每一列作为一个单独的元素来看，有点像按列的apply：

> map(infos, typeof)
$family
[1] "character"

$name
[1] "character"

$born
[1] "double"

> apply(infos, 2, typeof)
     family        name        born 
"character" "character" "character"

2. purrr 中的无名函数

数据：

s <- c('10, 8, 7', 
      '5, 2, 2', 
      '3, 7, 8', 
      '8, 8, 9')

比如map 函数，如果需要使用自定义的无名函数，可以和apply 等使用类似：

map_dbl(strsplit(s, split=",", fixed=TRUE),
  function(x) sum(as.numeric(x)))
## [1] 25  9 18 25

map 提供了简写用法：

map_dbl(strsplit(s, split=",", fixed=TRUE),
  ~ sum(as.numeric(.)))

将无名函数写成“~ 表达式”格式，表达式就是无名函数定义，用.表示只有一个自变量时的自变量名，用.x和.y表示只有两个自变量时的自变量名，用..1、..2、..3这样的名字表示有多个自变量时的自变量名。

需要注意的是，如果map()等泛函中的无名函数需要访问其它变量的话，需要理解其变量作用域或访问环境。另外，无名函数中的其它变量在每次被map()应用到输入列表的元素时都会重新计算求值。建议这样的情况改用有名函数，这样其中访问其它变量时作用域规则比较容易掌控，也不会重复求值。（人话就是，如果要使用其他变量，就别简写啦）

ps: 其实也可以通过apply 族实现，不过确实代码有点儿乱七八糟了：

> lapply(s, function(x) sum(as.numeric(unlist(strsplit(x, ",")))))
[[1]]
[1] 25

[[2]]
[1] 9

[[3]]
[1] 18

[[4]]
[1] 25

而且apply 也不认识简写方法：

> lapply(s, ~ sum(as.numeric(unlist(strsplit(., ",")))))
Error in match.fun(FUN) : 
  '~sum(as.numeric(unlist(strsplit(., ","))))'不是函数，也不是字符，也不是符號

3. 提取列表元素的简写

map 除了调用无名函数时可以简写，在提取列表元素时也有简写的方法。

较为复杂的数据，有时表现为列表的列表，每个列表元素都是列表或者向量。JSON、YAML等格式转换为R对象就经常具有这种嵌套结构。一般这种类型的数据，导入的R 后就表现为嵌套列表的格式，也就是列表中的每个元素也都是列表。

od <- list(
  list(
    101, name="李明", age=15, 
    hobbies=c("绘画", "音乐")),
  list(
    102, name="张聪", age=17,
    hobbies=c("足球"),
    birth="2002-10-01")
)

为了取出每个列表元素的第一项，本来应该写成：

map_dbl(od, function(x) x[[1]])
## [1] 101 102

map_dbl(od, ~ .[[1]])
## [1] 101 102

purrr包提供了进一步的简化写法，在需要一个函数或者一个“~ 表达式”的地方，可以用整数下标值表示对每个列表元素提取其中的指定成分，如：

map_dbl(od, 1)
## [1] 101 102

> map_chr(od, "name")
[1] "李明" "张聪"

我们还可以指定一个列表，列表为成员序号或者成员名，实现逐层挖掘：

map_chr(od, list("hobbies", 1))
## [1] "绘画" "足球"

表示取出每个列表元素的hobbies成员的第一个元素（每人的第一个业余爱好）。

取出不存在的成员会出错，但可以用一个.default选项指定查找不到成员时的选项，如：

map_chr(od, "birth", .default=NA)
## [1] NA           "2002-10-01"

4. map 函数的变种

map的变种：

map_lgl()：返回逻辑向量；
map_int()：返回整型向量；
map_dbl(): 返回双精度浮点型向量(double类型)；
map_chr(): 返回字符型向量。

除此之外，map 还有其他的变种：

modify()，输入一个数据自变量和一个函数， 输出与输入数据同类型的结果；
map2()可以输入两个数据自变量和一个函数， 将两个自变量相同下标的元素用函数进行变换， 输出列表；
imap()根据一个下标遍历；
walk()输入一个数据自变量和一个函数， 不返回任何结果，仅利用输入的函数的副作用；
输入若干个数据自变量和一个函数， 对数据自变量相同下标的元素用函数进行变换；

按照map 的输入类型，又可分：

一个数据自变量，代表为map()；
两个自变量，代表为map2()；
一个自变量和一个下标变量，代表为imap()；
多个自变量，代表为pmap()。

输入类型和输出类型两两搭配， purrr包提供了27种map类函数。

modify

modify 的用法同map差不多，好处就是可以返回同类型数据，如果是数据框输入，输出也还是数据框：

> d1 <- modify(d2, ~ if(is.numeric(.)) . - median(.) else .)
> d1
  x1 x2 sex
1 -6 -4   M
2  1  8   F
3  2 -1   M
4 -1  1   F

purrr包还提供了一个modify_if()函数，可以对满足条件的列进行修改，如：

> d2 <- modify_if(d2, is.numeric, ~ .x - median(.x))
> 
> d2
  x1 x2 sex
1 -6 -4   M
2  1  8   F
3  2 -1   M
4 -1  1   F

也就是多了一个返回逻辑值结果的函数作为参数。

walk

walk 函数并不会返回任何结果，有时仅需要遍历一个数据结构调用函数进行一些显示、绘图，这称为函数的副作用，不需要返回结果。purrr的walk函数针对这种情形。比如用cat查看并输出数据框中的变量类别：

walk(d.class, ~ cat(typeof(.x), "
"))
## character 
## character 
## double 
## double 
## double

walk2()函数可以接受两个数据自变量，类似于map2()。例如，需要对一组数据分别保存到文件中，就可以将数据列表与保存文件名的字符型向量作为walk2()的两个数据自变量。

dl <- split(d.class, d.class[["sex"]])
walk2(dl, paste0("class-", names(dl), ".csv"), 
      ~ write.csv(.x, file=.y))

也可以更加直观的用管道符号：

d.class %>%
  split(d.class[["sex"]]) %>%
  walk2(paste0("class-", names(.), ".csv"), ~ write.csv(.x, file=.y))

ps: walk 这个函数在操作保存时挺好用的，可以省去循环的麻烦，而且基本R 也没有提供类似walk的功能。

iwalk/imap

这一族函数可同时访问下标或元素名与元素值。相当于每次遍历数据，都会获取两个变量，一个是元素值，一个是元素下标（有元素名则为元素名），如果x有元素名， imap(x, f)相当于imap2(x, names(x), f)；如果x没有元素名， imap(x, f)相当于imap2(x, seq_along(x), f)。：

例如， 显示数据框各列的变量名：

iwalk(d.class, ~ cat(.y, ": ", typeof(.x), "
"))
## name :  character 
## sex :  character 
## age :  double 
## height :  double 
## weight :  double

pmap

R的向量化可以很好地处理各个自变量是向量的情形，但是对于列表、数据框等多个自变量则不能自动进行向量化处理。purrr包的pmap类函数支持对多个列表、数据框、向量等进行向量化处理。pmap不是将多个列表等作为多个自变量，而是将它们打包为一个列表。所以， map2(x, y, f)用pmap()表示为pmap(list(x, y), f)。

相当于多维度的遍历map ：

x <- list(101, name="李明")
y <- list(102, name="张聪")
z <- list(103, name="王国")
pmap(list(x, y, z), c)
## [[1]]
## [1] 101 102 103
## 
## $name
## [1] "李明" "张聪" "王国"

对于数据框，对数据框的每一行执行函数（之于map 对列执行，有点类似于apply 选择行or列）。例如：

d <- tibble::tibble(
  x = 101:103, 
  y=c("李明", "张聪", "王国"))
pmap_chr(d, function(...) paste(..., sep=":"))
         
## [1] "101:李明" "102:张聪" "103:王国"

5. reduce 类函数

reduce(1:4, `+`)
## [1] 10

执行的其实是 1+2 + 3 + 4。

虽然结果和sum 一致，但是reduce 可以对元素为复杂类型的列表进行逐项合并计算。

比如如果要取下面数据的交集：

set.seed(5)
x <- replicate(4, sample(
  1:5, size=5, replace=TRUE), simplify=FALSE); x
## [[1]]
## [1] 2 3 1 3 1
## 
## [[2]]
## [1] 1 5 3 3 2
## 
## [[3]]
## [1] 5 4 2 5 3
## 
## [[4]]
## [1] 1 4 3 2 5

我们可以用管道符号，非常繁琐的进行：

x[[1]] %>% intersect(x[[2]]) %>% intersect(x[[3]]) %>% intersect(x[[4]])

而reduce 直接一句话的事情：

reduce(x, intersect)
## [1] 2 3

ps：reduce()支持...参数，所以可以给要调用的函数额外的自变量或选项。那么对于ifelse，是不是可以增加参数，如果对于复杂的内容，就不用一层层套娃了。

reduce2

reduce2(x, y, f) 中的x是要进行连续运算的数据列表或向量，而y是给这些运算提供不同的参数。如果没有.init初始值， f仅需调用length(x)-1次，所以y仅需要有length(x)-1个元素；如果有.init初始值， f需要调用length(x)次， y也需要与x等长。

accumulate

accumulate 之于reduce，类似cumsum 之于sum。它会返回每一步进行函数运算后的结果：

accumulate(x, union)
## [[1]]
## [1] 2 3 1 3 1
## 
## [[2]]
## [1] 2 3 1 5
## 
## [[3]]
## [1] 2 3 1 5 4
## 
## [[4]]
## [1] 2 3 1 5 4

Map-reduce算法

Map-reduce是大数据技术中的重要算法，在Hadoop分布式数据库中主要使用此算法思想。将数据分散存储在不同计算节点中，将需要的操作先映射到每台计算节点，进行信息提取压缩，最后用reduce的思想将不同节点的信息整合在一起。

6. 使用示性函数的泛函

some

some(.x, .p)，对数据列表或向量.x的每一个元素用.p判断，只要至少有一个为真，结果就为真；every(.x, .p)与some类似，但需要所有元素的结果都为真结果才为真。这些函数与any(map_lgl(.x, .p))和all(map_lgl(.x, .p))类似，但是只要在遍历过程中能提前确定返回值就提前结束计算，比如some 只要遇到一个真值就不再继续判断， every只要遇到一个假值就不再继续判断。（更加灵活的any 或all）

> d1
# A tibble: 4 x 2
     x1    x2
  <dbl> <dbl>
1   106   101
2   108   112
3   103   107
4   110   105
> some(d1, is.numeric)
[1] TRUE

detect

detect(.x, .p)返回数据.x的元素中第一个用.p判断为真的元素值，而detect_index(.x, .p)返回第一个为真的下标值。

返回向量中的第一个超过100的元素的值：

detect(c(1, 5, 77, 105, 99, 123), ~ . >= 100)
## [1] 105
返回向量中的第一个超过100的元素的下标：

detect_index(c(1, 5, 77, 105, 99, 123),
  ~ . >= 100)
## [1] 4

keep/discard

keep(.x, .p)选取数据.x的元素中用.p判断为真的元素的子集；discard(.x, .p)返回不满足条件的元素子集。

x. 其他有用的函数

比如keep，可以专门用来选择数据框各列或列表元素中满足某种条件的子集，这个条件用一个返回逻辑值的函数来给出。如：

> keep(infos, is.character)
# A tibble: 4 x 2
  family name 
  <chr>  <chr>
1 张     三   
2 李     四   
3 王     五   
4 赵     六

其实用其他向量化的方法也不错。

> tmp2 = unlist(map(infos, typeof)) %in% "character"
> infos[,tmp2]
# A tibble: 4 x 2
  family name 
  <chr>  <chr>
1 张     三   
2 李     四   
3 王     五   
4 赵     六

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程

当前栏目

40. R 数据整理（十一：用purrr包实现更花样的匿名函数使用）

1. map 族

2. purrr 中的无名函数

3. 提取列表元素的简写

4. map 函数的变种

modify

walk

iwalk/imap

pmap

5. reduce 类函数

6. 使用示性函数的泛函

some

detect

keep/discard

x. 其他有用的函数

相关文章

当前栏目

40. R 数据整理（十一： 用purrr包实现更花样的匿名函数使用）

1. map 族

2. purrr 中的无名函数

3. 提取列表元素的简写

4. map 函数的变种

modify

walk

iwalk/imap

pmap

5. reduce 类函数

6. 使用示性函数的泛函

some

detect

keep/discard

x. 其他有用的函数

相关文章

40. R 数据整理（十一：用purrr包实现更花样的匿名函数使用）