Python3.x 过滤阈值大小数据以使用 Pyspark 或 Python 读取

发布于08月13日

我在一个路径中有n个orc文件，其中大约150个文件是空的或不完整的大小，我想忽略所有这些文件，同时通过pyspark读取. 我写了以下内容，但我需要一些帮助，因为它不起作用.

path = "/home/data/raw_data/"
file_list = os.listdir(path)
for file in file_list:
    size=os.path.getsize(os.path.join(path, file))
    if size > 6500: # want to import which is greater than 6.5 Mb
        file_list.append(size)
raw_df = spark.read.format("orc").load(path)

推荐答案

上面代码中的问题是

file_list.append(size) ---> which is not required and 
reading data from spark should be inside loop.

from pyspark.sql import DataFrame
from functools import reduce

df_list =[]
path = "/home/data/raw_data/"
file_list = os.listdir(path)
for file in file_list:
    size=os.path.getsize(os.path.join(path, file))
    if size > 6500: 
       raw_df = spark.read.format("orc").load(path+file)
       df_list.append(raw_df)
df_fnl = reduce(DataFrame.unionByName,df_list)

感谢您对我的解决方案的好评.