pandas使用函数批量处理数据(map、apply、applymap)

前言

在我们对dataframe对象进行处理时候，下意识的会想到对dataframe进行遍历，然后将处理后的值再填入dataframe中，这样做比较繁琐，且处理大量数据时耗时较长。pandas内置了一个可以对dataframe批量进行函数处理的工具：map、apply和applymap。

提示：为方便快捷地解决问题，本文仅介绍函数的主要用法，并非全面介绍

一、pandas.series.map()是什么？

把series中的值进行逐一映射，带入进函数、字典或series中得出的另一个值。

series.map(arg, na_action=none)

参数：

arg:函数、字典类数据、series；映射对应关系
na_action{none, ‘ignore’}:默认为none；处理nan变量，如果为none则不处理nan对象，如果为‘ignore’则将nan对象当做普通对象带入规则。

返回series

二、pandas.series.map()用法和优点

本节主要讲述map()函数的主要用法和相比于方法的优点

1、map()用法

创建案例dataframe

import pandas as pd
import numpy as np
import time

data = pd.dataframe({'name':['verne raymond','chapman becher','patrick george','saxon macarthur',
               'joshua marjory','luther pigou','fanny agnes','karen bush','elaine whitman'],
             'gender':[0,1,0,0,1,1,1,0,1],'first_name':np.nan,'last_name':np.nan})

print(data)

              name gender first_name last_name
0    verne raymond       0         nan        nan
1   chapman becher       1         nan        nan
2   patrick george       0         nan        nan
3 saxon macarthur       0         nan        nan
4   joshua marjory       1         nan        nan
5     luther pigou       1         nan        nan
6      fanny agnes       1         nan        nan
7       karen bush       0         nan        nan
8   elaine whitman       1         nan        nan

现在需要将name列的姓和名拆分开来分别放入first_name 和last_name里面，使用map()函数实现，并计算所用时间

def first_name_map(x):
  return x.split(' ')[0]
def last_name_map(x):
  return x.split(' ')[1]

data['first_name'] = data['name'].map(first_name_map)
data['last_name'] = data['name'].map(last_name_map)

print('use time:'+str(end-start))
print(data)

use time:0.0009970664978027344
              name gender first_name last_name
0    verne raymond       0      verne    raymond
1   chapman becher       1    chapman     becher
2   patrick george       0    patrick     george
3 saxon macarthur       0      saxon macarthur
4   joshua marjory       1     joshua    marjory
5     luther pigou       1     luther      pigou
6      fanny agnes       1      fanny      agnes
7       karen bush       0      karen       bush
8   elaine whitman       1     elaine    whitman

如果要将性别代号的0、1替换为中文male和female，可以使用字典映射功能，如下

data['gender'] = data['gender'].map({0:'female',1:'male'})

print(data)

              name gender first_name last_name
0    verne raymond female      verne    raymond
1   chapman becher    male    chapman     becher
2   patrick george female    patrick     george
3 saxon macarthur female      saxon macarthur
4   joshua marjory    male     joshua    marjory
5     luther pigou    male     luther      pigou
6      fanny agnes    male      fanny      agnes
7       karen bush female      karen       bush
8   elaine whitman    male     elaine    whitman

2、map()相比其他方式的优点

较普通的方法主要是方便和速度快，下面例子进行对比，上面已经计算过使用map()方法处理的速度为：0.0009970664978027344

传统遍历

start = time.time()
for index,rows in data.iterrows():
  data['first_name'][index] = rows['name'].split(' ')[0]
  data['last_name'][index] = rows['name'].split(' ')[1]
end = time.time()
print('use time:'+str(end-start))

use time:0.5146446228027344

可以看到使用map()方法比使用直接遍历的方式快了500多倍

list暂存的方法

start = time.time()
first_name = []
last_name = []
for index,rows in data.iterrows():
  first_name.append(rows['name'].split(' ')[0])
  last_name.append(rows['name'].split(' ')[1])
data['first_name'] = first_name
data['last_name'] = last_name
end = time.time()
print('use time:'+str(end-start))

use time:0.001994609832763672

可以看出来使用list暂存的方法比遍历方法快了250多倍，但是比map方法还是慢了一半

二、apply()函数

apply()的使用方法与map()的使用方法类似，只是apply()除了传入series参数外还可以多传入额外的参数。

series.apply（func，convert_dtype = true，args = （）， **kwds）

参数：
func:函数名称

convert_dtype:bool类值, 默认为true；尝试自己寻找最适合的数据类型。如果为false则dtype=object。

args:元组；在series之后传递位置参数信息

**kwds：给函数传递其他参数（以字典的形式）

返回series或dataframe

下面是案例（参考官方文档案例）

s = pd.series([20, 21, 12],index=['london', 'new york', 'helsinki'])
print(s)

london      20
new york    21
helsinki    12
dtype: int64

处理数据

def subtract_custom_value(x, custom_value):
  return x - custom_value
s.apply(subtract_custom_value, args=(5,))

london      15
new york    16
helsinki     7
dtype: int64

使用**kwds参数

def subtract_custom_value(x, **kwds):
  for key in kwds:
    x -= kwds[key]
  return x
s.apply(subtract_custom_value, num = 5)

london      15
new york    16
helsinki     7
dtype: int64

三、applymap()函数用法

applymap()函数处理的对象是dataframe，并非series，它没有前面两个函数用得多，但在某些情况也很有用。

dataframe.applymap(func)

参数：
func:函数；要调用的python函数，输入输出都为单个值

返回dataframe

下面是简单的案例：

import pandas as pd
import numpy as np
data = pd.dataframe(
  {
    "a":np.random.randn(3),
    "b":np.random.randn(3),
    "c":np.random.randn(3),
  }
)
print(data )

a b c
0 2.128483 -1.701311 -1.362955
1 -1.149937 1.108856 -0.259637
2 -0.076621 -0.379672 -2.636464

计算所有值的平方：

data.applymap(lambda x: x**2)

a b c
0 4.530439 2.894459 1.857645
1 1.322356 1.229561 0.067411
2 0.005871 0.144151 6.950940

总结

本文展示了pandas将数据映射到函数里批量快速处理的方法，主要使用的了pandas自带的map、apply和applymap工具，实验结果是比普通循环快500倍，后续还将介绍更多数据处理实用的技巧。

到此这篇关于pandas使用函数批量处理数据(map、apply、applymap)的文章就介绍到这了,更多相关pandas函数批量内容请搜索www.887551.com以前的文章或继续浏览下面的相关文章希望大家以后多多支持www.887551.com！

黄山市民网：https://www.huangshanshimin.com/