Python Polars比较了两个预设有没有方法在第一次不匹配时立即失败

发布于04月24日

我正在使用polars.测试assert_frame_equal方法来比较两个包含相同列的排序过的格式，下面是我的代码:

assert_frame_equal(src_df, tgt_df, check_dtype=False, check_row_order=False)

对于包含500万条记录的收件箱，需要很长时间才能报告失败，因为它比较两个收件箱之间的所有行.有没有一种方法可以让两极立即失败，并报告第一次不匹配/失败并停止执行，因为我们只需要知道第一次失败.我try 搜索，但找不到此要求的任何文档.

有人能帮助我吗？

推荐答案

polars.testing.*种方法在报告差异时调用.to_list().

https://github.com/pola-rs/polars/blob/main/py-polars/polars/testing/asserts/frame.py#L128-L130

我发现，当涉及更大的数据时，这是显着放缓的一个根源.

如果您还想要错误报告，那么您似乎需要手动执行.

.arg_true()可以用作获取第一次不匹配的索引的一部分.

a = pl.Series(["a", "b", "c", "d"])
b = pl.Series(["a", "b", "e", "f"])


a.ne_missing(b).arg_true()

shape: (2,)
Series: '' [u32]
[
    2
    3
]

您可以参考执行的其他预判断的实现，但您可以执行类似于以下操作:

import polars as pl

N = 5

src_df = pl.DataFrame({
   "a": range(N),
   "b": list(range(N - 2)) + [42, 42]
}).sort(pl.all())

tgt_df = pl.DataFrame({
   "a": range(N),
   "b": range(N)
}).sort(pl.all())


"""
Insert other equality pre-checks here
"""

for col in src_df:
    try:
        idx = col.ne_missing(tgt_df[col.name]).arg_true().head(1).item()
        print("LEFT:", src_df[idx])
        print("RIGHT:", tgt_df[idx])
        break
    except ValueError:
        pass

LEFT: shape: (1, 2)
┌─────┬─────┐
│ a   ┆ b   │
│ --- ┆ --- │
│ i64 ┆ i64 │
╞═════╪═════╡
│ 3   ┆ 42  │
└─────┴─────┘
RIGHT: shape: (1, 2)
┌─────┬─────┐
│ a   ┆ b   │
│ --- ┆ --- │
│ i64 ┆ i64 │
╞═════╪═════╡
│ 3   ┆ 3   │
└─────┴─────┘