python中pandas.read_csv()函数的深入讲解

这里将更新最新的最全面的read_csv()函数功能以及参数介绍，参考资料来源于官网。

pandas库简介

里详细说明了pandas库的安装以及使用方法，在这里获取最新的pandas库信息，不过官网仅支持英文。

pandas是一个python包，并且它提供快速，灵活和富有表现力的数据结构。这样当我们处理”关系”或”标记”的数据（一维和二维数据结构）时既容易又直观。

pandas是我们运用python进行实际、真实数据分析的基础，同时它是建立在numpy之上的。

csv文件格式简介

函数介绍

pandas.csv() 函数将逗号分离的值（csv）文件读入数据框架。还支持可选地将文件读入块或将其分解。

函数原型

源文件

pandas.read_csv(filepath_or_buffer, sep=, delimiter=none, header=‘infer’, names=none, index_col=none, usecols=none, squeeze=false, prefix=none, mangle_dupe_cols=true, dtype=none, engine=none, converters=none, true_values=none, false_values=none, skipinitialspace=false, skiprows=none, skipfooter=0, nrows=none, na_values=none, keep_default_na=true, na_filter=true, verbose=false, skip_blank_lines=true, parse_dates=false, infer_datetime_format=false, keep_date_col=false, date_parser=none, dayfirst=false, cache_dates=true, iterator=false, chunksize=none, compression=‘infer’, thousands=none, decimal=’.’, lineterminator=none, quotechar='”‘, quoting=0, doublequote=true, escapechar=none, comment=none, encoding=none, dialect=none, error_bad_lines=true, warn_bad_lines=true, delim_whitespace=false, low_memory=true, memory_map=false, float_precision=none, storage_options=none

函数参数以及含义

输入

参数名	功能以及含义
filepath_or_buffer	字符串。任何有效的字符串路径都可以，网址也行。
sep	字符串，表示分隔符，默认为’,’ .。一个字符及以上都可以，注意如果是转义字符要加”
delimiter	字符串，sep的别名，默认none
header	int或者int列表，默认由推断出来。这是用于规定列名的行号。
names	类似于数组结构，选择性使用。这是要使用的列名称列表，与header共同使用。
index_col	整数或者字符串或者整数/字符串列表。指定用作的行标签的列。
usecols	列表，可用可不用。功能是返回列的子集。
squeeze	布尔值，默认为false。如果解析的数据仅包含一列，则返回一个series
prefix	字符串，选择性使用。没有标题时要添加到列号的前缀
mangle_dupe_cols	布尔值，默认为true。重复的列将被指定为“ x”，“ x.1”，……“ x.n”，而不是“ x”……“ x”。如果列中的名称重复，则false将导致数据被覆盖。
dtype	类型名称或者类型列的字典，选择性使用。数据或列的数据类型。
engine	{‘c’, ‘python’}，选择性使用。要使用的解析器引擎。c引擎速度更快，而python引擎当前功能更完善。
converters	字典，选择性使用。转换器，用于转换某些列中的值的函数的字典。键可以是整数或列标签。
true_value	列表，选择性使用。视为true的值
false_values	列表，选择性使用。视为false的值
skipinitialspace	布尔值，默认为false。在定界符后跳过空格。
skiprows	列表或者整数，选择性使用。在文件开始处要跳过的行号（索引为0）或要跳过的行数（整数）。
skipfooter	整数，默认为0。要跳过的文件底部的行数（不支持engine =‘c’）。
nrows	整数，选择性使用。要读取的文件行数。对于读取大文件很有用。
na_values	标量，字符串，类似列表的字典，选择性使用。识别为na / nan的其他字符串。如果dict通过，则为特定的每列na值。默认情况下，以下值解释为nan：”，’＃n / a’，’＃n / an / a’，’＃na’，’-1.＃ind’，’-1.＃qnan’， ‘-nan’，’-nan’，‘1.＃ind’，‘1.＃qnan’，”，‘n / a’，‘na’，‘null’，‘nan’，‘n / a’，‘nan’，‘null’。
keep_default_na	布尔值，默认为true。解析数据时是否包括默认的nan值。
na_filter	布尔值，默认为true。检测缺失值标记（空字符串和na_values的值）。请注意，如果将na_filter传递为false，则将忽略keep_default_na和 na_values参数。
verbose	布尔值，默认为false。指示放置在非数字列中的na值的数量。
skip_blank_lines	布尔值，默认为true。如果为true，跳过空白行，并且不解释为nan值。
parse_dates	布尔值，整数列表，名称列表，列表或字典的列表。默认为false。功能是解析为时间。
infer_datetimes_format	布尔值，默认为false。如果启用true和parse_dates，则pandas将尝试推断列中日期时间字符串的格式，并且如果可以推断出日期格式，就会切换到更快的解析它们的方法。
keep_date_col	布尔值，默认为false。如果true和parse_dates指定合并多个列，则保留原始列。
date_parser	函数，选择性使用。用于将字符串列序列转换为日期时间实例数组的函数。
dayfirst	布尔值，默认为false。dd / mm格式的日期，国际和欧洲格式。
cache_dates	布尔值，默认为true。如果为true，则使用唯一的转换日期缓存来应用datetime转换。
iterator	布尔值，默认为false。返回textfilereader对象以进行迭代或使用获取块 get_chunk()。
chunksize	整数，选择性使用。返回textfilereader对象以进行迭代。
compression	{‘infer’, ‘gzip’, ‘bz2′, ‘zip’, ‘xz’, none}，默认为’infer’。用于对磁盘数据进行即时解压缩。设置为“无”将不进行解压缩。
thousands	字符串，选择性使用。千位分隔符。
decimal	字符串，默认为’.’。识别为小数点的字符（例如，对于欧洲数据，请使用“，”）。
lineterminator	长度为1的字符串，选择性使用。用于将文件分成几行的字符。仅对c解析器有效。
quotechar	长度为1的字符串，选择性使用。用于表示引用项目的开始和结束的字符。
quoting	整数或者csv.quote_* 实例，默认为0。每个csv.quote_*常量的控制字段引用行为。使用quote_minimal（0），quote_all（1），quote_nonnumeric（2）或quote_none（3）中的一种。
doublequote	布尔值，默认为true。如果指定quotechar而未使用引号quote_none，则指示是否将一个字段内的两个连续的quotechar元素解释为单个quotechar元素。
escapechar	长度为1的字符串，选择性使用。一字符字符串，用于转义其他字符。
comment	字符串，选择性使用。指示不应分析行的其余部分。如果在一行的开头找到该行，则将完全忽略该行。此参数必须是单个字符。
encoding	字符串，选择性使用。读/写时用于utf的编码（例如’utf-8’）。
dialect	字符串或者csv.dialect，选择性使用。如果提供的话，该参数将覆盖为以下参数的值（默认或不）：delimiter, doublequote, escapechar, skipinitialspace, quotechar, and quoting。
error_bad_lines	布尔值，默认为true。默认情况下，具有太多字段的行（例如，带有太多逗号的csv行）将引发异常，并且不会返回任何dataframe。如果为false，则这些“坏行”将从返回的dataframe中删除。
warn_bad_lines	布尔值，默认为true。如果error_bad_lines为false，而warn_bad_lines为true，则将为每个“坏行”输出警告。
delim_whiterspace	布尔值，默认为false。指定是否将空格（例如或）用作分隔符。
low_memory	布尔值，默认为true。在内部对文件进行分块处理，从而在解析时减少了内存使用。
memory_map	布尔值，默认为false。如果为filepath_or_buffer提供了文件路径，则将文件对象直接映射到内存中，然后直接从那里访问数据。使用此选项可以提高性能，因为不再有任何i / o开销。
float_precision	字符串，选择性使用。指定c引擎应将哪个转换器用于浮点值。
storage_option	字典，选择性使用。解析特殊的url。如果为该参数提供非fsspec url，则会引发错误。

dataframe：将逗号分隔值（csv）文件读取到dataframe中。

函数使用实例

终端使用范例：

>>>import pandas as pd
>>>pd.read_csv('data.csv')

代码行使用范例

#导入pandas库，并取别名为pd
import pandas as pd
#books.csv与项目不在同一文件夹下使用绝对路径，分隔符为';'，出错的行直接跳过，编码方式使用"latin-1"，变量books是dataframe数据结构
books = pd.read_csv('d:\coder\python_program\books.csv', sep=';', error_bad_lines = false, encoding="latin-1")
#查看books的行和列
print(books.shape)
#查看
print(list(books.columns))
print(books.head())

总结

到此这篇关于python中pandas.read_csv()函数的文章就介绍到这了,更多相关python pandas.read_csv()函数内容请搜索www.887551.com以前的文章或继续浏览下面的相关文章希望大家以后多多支持www.887551.com！

黄山市民网：https://www.huangshanshimin.com/