今天用python将list转为DataFrame时,出现了诡异的一幕,多了一列空列,源代码如下,(数据是UCI的开源数据,下载链接)

def load_data(filepath):
    data= []  
    with open(filepath) as ifile:  
        for line in ifile:
            rowList = []
            tokens = line.strip().split('  ')#分割为两个空格(这行代码就是问题所在)
            for token in tokens:
                rowList.append(token)
            data.append(rowList)
            
    #将list转为Dataframe
    print(data)
    data=list(data)
    df=pd.DataFrame(data)
    print('-------------')
    print(df)
    return df
    
if __name__=='__main__':
    dataset=load_data("data/yeast.data")

打印的结果如下

一开始就怀疑是不是实际数据列数不止10,所以打印了第一行数据的列数,的确的10. 排查了半天,最后只有在循环中去拍段数据列数是不是等于10,不等于则打印。结果发现是因为,原始数据采用空格分割,有些是2个空格,有些是三个空格,因此分割会出现问题,如下

最后,我偷了懒,直接把数据分割换成了’,’号,就ok了。

希望能帮助到别人吧!

本文地址:https://blog.csdn.net/doubi1/article/details/110929740