在将我的数据湖装载到Databricks之后,我try 使用*.json
个后缀将所有JSON文件加载到一个数据帧中,但它不起作用:
df = spark.read.option("recursiveFileLookup", "true") \
.json("/mnt/adls_gen/prod/**/*.json")
执行上述代码时出现以下错误
[PATH_NOT_FOUND] Path does not exist: dbfs:/mnt/adls_gen/prod/**/*.json.
如果删除文件扩展名,操作将成功:
df = spark.read.option("recursiveFileLookup", "true") \
.json("/mnt/adls_gen/prod/**/*")
...但它也在读取其他文件,例如扩展名为*.json_old
和*.txt
的文件.
我不熟悉在此场景中使用的任何替代选项.是否有其他方法可用于按文件扩展名进行筛选?我在数据湖中的文件有各种扩展名,所以我正在寻找一种适应这种多样性的解决方案.
ApacheSpark版本是3.4.1(Scala 2.12).