Python 用LAKEF划分实木地板AWS Wrangler

发布于03月07日

我试图在S3上划分镶木地板，它与AWS Wrangler一起工作.

basename_template = 'part.'
partitioning = ['cust_id', 'file_name', 'added_year', 'added_month', 'added_date']
loop = asyncio.get_event_loop()
s3_path = "s3://customer-data-lake/main/parquet_data"
await loop.run_in_executor(None, lambda: wr.s3.to_parquet(
   df=batch.to_pandas() ,
   path=s3_path,
   dataset=True,
   max_rows_by_file=MAX_ROWS_PER_FILE,
   use_threads=True,
   partition_cols = partitioning,
   mode='append',
   boto3_session=s3_session,
   filename_prefix=basename_template
 ))

然后我try 将其转换为lakeFS，我将端点更改为LakeFS

wr.config.s3_endpoint_url = lakefsEndPoint

然后，分区突然不再起作用了.它只是附加到相同的分区.

This image is the original S3 one

Then this is after I changed to lakeFs

它只是附加到CSV_1.我在这里做错了什么？

Python 用LAKEF划分实木地板AWS Wrangler

推荐答案

Python相关问答推荐

理解Python的二分库：澄清bisect_left的使用

如何在具有重复数据的pandas中对groupby进行总和，同时保留其他列

如何使用pandasDataFrames和scipy高度优化相关性计算

Pystata：从Python并行运行stata实例

类型错误：输入类型不支持ufuncisnan-在执行Mann-Whitney U测试时[SOLVED]

Pandas 有条件轮班操作

在Google Colab中设置Llama-2出现问题-加载判断点碎片时Cell-run失败

从numpy数组和参数创建收件箱

avxspan与pandas period_range

基于索引值的Pandas DataFrame条件填充

部分视图的DataFrame

pandas：排序多级列

未知依赖项pin—1阻止conda安装""

如何使用Pandas DataFrame按日期和项目汇总计数作为列标题

无论输入分辨率如何，稳定扩散管道始终输出512 * 512张图像

处理具有多个独立头的CSV文件

在matplotlib中使用不同大小的标记顶部添加批注

如何训练每一个pandaprame行的线性回归并生成斜率

Python日志(log)库如何有效地获取lineno和funcName？

Django REST框架+Django Channel->；[Errno 111]连接调用失败('；127.0.0.1'；，6379)