如何用pandas对excel中的文本数据进行操作

2009 年 8 月 13 日

excel进行数据的操作最便捷的库是pandas，但是如何使用pandas对excel中的文本进行清洗，这是一个很技巧性的工作。之前常见的思路是操作结果保存到新的excel文件中，这会让代码可读性和清洗速度大大降低，这很不pythonic，所以今天分享pandas的文本数据处理技巧。

pandas中有Series和DataFrame两种数据结构，Series是一种数组，DataFrame是一种表（每一行数据是一条记录，每一列是一个变量）。

上图整体是一个DataFrame，图中的每一绿色圈中的是一个Series。

在Series中有str方法，本文所有的方法都是在Series对象基础上进行的操作。

Series.str方法

Series.str可以对某一序列中的每个文本数据进行批处理，一般返回的结果是数组。

上面内容看不懂没关系，我们通过代码帮助你理解

选择From_To列，得到Series类型数据

Run

upper/lower

将Airline列中的每一项变为大写

Run

将From_To列中的每一项变为小写

Run

len

求From_To列每一项的长度

Run

split分割

对From To列中每一项按照” “进行切割。注意这里expand参数

Run

contains

From_To列中每项是否含有’Brussels’这个字段，返回布尔值

Run

startswith

From_To列中每项是否含以’B’作为开头，返回布尔值

Run

endswith

From_To列中每项是否含以’n’作为结尾，返回布尔值

Run

findall

把RecentDelays列中的列表

Run

extract

清洗Airline列，使其每一项只拥有字母和空格。我们先看看数据

使用正则表达式，对From_To列进行提取操作，获得出发地和目的地。

findall(pat)

查找Series中每一项是否含有pat

Run

查找Series中每一项是否含有Monkey

Run

我们先看看df

查找From_To列中是否有Paris

Run

replace

将From To列中的” “换为”>”

Run

get

get(i) 获得序列中每一项第i个位置的数据

Run

获得s1序列中每项文本的第2个位置的数据

Run

获得s1序列中每项文本的最后一个位置的数据

Run

join

join(sep) 按照sep对每一项文本序列数据进行拼接。注意遇到非文本数据，不进行拼接，返回nan

Run

将s2中每一项用空格拼接

Run

cat

Series.str.cat(sep, na rep)|按照sep对数组进行合并(如果遇到nan，以na rep替代)，注意该方法返回字符串

将Airline列合并成一个大的字符串,用空格间隔

Run

M	T	W	T	F	S	S
« Jan
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

演道网

如何用pandas对excel中的文本数据进行操作

Series.str方法

upper/lower

len

split分割

contains

startswith

endswith

findall

extract

findall(pat)

replace

get

join

cat

About The Author

shine

Series.str方法

upper/lower

len

split分割

contains

startswith

endswith

findall

extract

findall(pat)

replace

get

join

cat

Related Posts

About The Author

shine