python一次性读取文件夹中的所有excel文件

python一次性读取文件夹中的所有excel文件,第1张

import pandas as pd

import os

data=pd.read_excel('/Users/kelan/Downloads/2月5日/安徽.xlsx')

a=data.columns

df_empty=pd.DataFrame(columns=a)

for parents,adds,filenames in os.walk('/Users/kelan/Downloads/2月5日'):

    for filename in filenames:

        #print(os.path.join(parents,filename))

        data = pd.read_excel(os.path.join(parents,filename))

        df_empty=df_empty.append(data,ignore_index=True) 

df_empty.to_excel('/Users/kelan/Downloads/2月5日/11.xlsx')

注意中文写乎辩贺入,os.walk会返回3个参数,分别是路径,目录list,文件list,取第一灶饥个和最后一个,最后一个遍历。ignore_index可以忽略索引。开始先在pandas中建一个dataframe,岁派columns中填写行标

例如:在C:\TDDOWNLOAD目录下有a.txt、b.txt两个文件,另有\sub1子文件夹,C:\TDDOWNLOAD\sub1下又有c.txt、d.txt两个文件。

1.

os.walk

os.walk()返回一个三元素的tuple:当前路径、子文件夹名称、文件列表。>>>

import

os>>>

def

fun(

path

):...

for

root,

dirs,

files

in

os.walk(

path

):...

for

fn

in

files:...

print

root,

fn...

>>>

fun(

r'C:\TDDOWNLOAD'

)C:\TDDOWNLOAD

a.txtC:\TDDOWNLOAD

b.txtC:\TDDOWNLOAD\sub1

c.txtC:\TDDOWNLOAD\sub1

d.txt>>>

2.

glob.glob

glob.glob()只接受一个参数,这个参数既代有路径,又代有匹配模式,返回值为一个列表。注意,glob.glob()无法直接穿透子文件夹,需要自己处理:>>>

def

fun(

path

):...

for

fn

in

glob.glob(

path

+

os.sep

+

'*'

):

#

'*'代表匹配所有文件...

if

os.path.isdir(

fn

):

#

如果结果为文件夹...

fun(

fn

)

#

递归...

else:...

print

fn...

>>>

fun(

r'C:\TDDOWNLOAD'

)C:\TDDOWNLOAD\a.txtC:\TDDOWNLOAD\b.txtC:\TDDOWNLOAD\sub1\c.txtC:\TDDOWNLOAD\sub1\d.txt>>>

'*'为悄喊喊匹配渗握模式,代表匹配所启野有文件,只有这样才能将子文件夹查出来,以便递归深入,探查下一层的文件。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12200510.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存