我在一个路径中有n个orc文件,其中大约150个文件是空的或不完整的大小,我想忽略所有这些文件,同时通过pyspark读取. 我写了以下内容,但我需要一些帮助,因为它不起作用.
path = "/home/data/raw_data/"
file_list = os.listdir(path)
for file in file_list:
size=os.path.getsize(os.path.join(path, file))
if size > 6500: # want to import which is greater than 6.5 Mb
file_list.append(size)
raw_df = spark.read.format("orc").load(path)