Python 在大型CSV数据库中使用TO_DATETIME转换混合日期格式时出现转换错误

发布于12月20日

我有一个很大的合同CSV数据库(2500万行，大约7 GB).我需要过滤掉过期的合同，以减少进一步计算的大小.过期日期数组包含混合格式的日期(dd/mm/yyyy和dd/mm/yyyy hh/mm/ss).

我试过使用这个代码:

#reading database
reader = pd.read_csv(path_contracts, sep="|", header=0, low_memory=False, chunksize=1000000)   
output = "Base_Filtered.csv"
 
#filtering chunks
for contracts in reader:
        contracts[name_date_end] = pd.to_datetime(contracts[name_date_end], dayfirst=True, format='mixed')
        #conditional
        contracts = contracts[(contracts[name_date_end]>=date_report)]  
        #outputing filtered chunks     
        contracts.to_csv(output, sep="|")

但我得到了这个错误:

pandas._libs.tslibs.np_datetime.OutOfBoundsDatetime: Out of bounds nanosecond timestamp: 31.08.8020, at position 3584

我已经判断了位置3584，它返回06.11.2021:

print(contracts.at[3584,name_date_end])
06.11.2021

因此，我try 创建一个包含此元素的数据库的较小版本(5k行)，它工作得非常好.

在try 过滤数据块之前，我曾try 一次过滤整个数据库.它产生了相同的误差，但在不同的位置.

找不到问题的根源和解决方案.

import csv from datetime import datetime fmts = [ r"%d/%m/%Y", r"%d/%m/%Y %H/%M/%S", ] def parse_dt(s: str) -> datetime | None: for fmt in fmts: try: dt = datetime.strptime(s, fmt) return dt except ValueError: continue return None filtered = csv.writer( open("output_filtered.csv", "w", newline=""), delimiter=",", ) bad = csv.writer( open("output_bad.csv", "w", newline=""), delimiter=",", ) reader = csv.reader( open("input.csv", newline=""), delimiter=",", ) for row in reader: dt = parse_dt(row[1]) if dt is None: bad.writerow(row) continue if dt < datetime(2002, 1, 1): row[1] = dt.isoformat() # standardize on ISO format filtered.writerow(row) else: print(f"dropped {dt}")

Python 在大型CSV数据库中使用TO_DATETIME转换混合日期格式时出现转换错误

推荐答案

Python相关问答推荐

如何将新的SQL服务器功能映射到SQL Alchemy的ORM

PyQt5如何将pyuic 5生成的Python类添加到QStackedWidget中？

pyautogui.locateOnScreen在Linux上的工作方式有所不同

Python -Polars库中的滚动索引？

如何计算列表列行之间的公共元素

ModuleNotFound错误：没有名为flags.State的模块; flags不是包

NP.round解算数据后NP.unique

django禁止直接分配到多对多集合的前端.使用user.set()

如何创建一个缓冲区周围的一行与manim？

NumPy中条件嵌套for循环的向量化

driver. find_element无法通过class_name找到元素'""

将JSON对象转换为Dataframe

Python列表不会在条件while循环中正确随机化'

在pandas数据框中计算相对体积比指标，并添加指标值作为新列

AES—256—CBC加密在Python和PHP中返回不同的结果，HELPPP

用SymPy在Python中求解指数函数

Flask运行时无法在Python中打印到控制台

统计numpy. ndarray中的项目列表出现次数的最快方法

如何在Python中自动创建数字文件夹和正在进行的文件夹？

查找查找表中存在的列值组合