使用make_csv_dataset,我们可以将CSV文件读取到tensorflow数据集对象

csv_data = tf.data.experimental.make_csv_dataset(
    "./train.csv",
    batch_size=8190,
    num_epochs=1,
    ignore_errors=True,)

现在csv_datatensorflow.python.data.ops.dataset_ops.MapDataset型.我怎样才能找到csv_data的大小或形状.

print(csv_data)给出如下列信息

<MapDataset element_spec={'title': TensorSpec(shape=(None,), dtype=tf.string, name=None), 'user_id': TensorSpec(shape=(None,), dtype=tf.string, name=None)}>

当然,可以 Select 使用train_recom.csvpandas.read_csv,只是好奇tensorflow是否有更简单的方法.

推荐答案

如果希望在没有任何预处理步骤的情况下获得批处理数据集的大小,请try :

import pandas as pd
import tensorflow as tf

df = pd.DataFrame(data={'A': [50.1, 1.23, 4.5, 4.3, 3.2], 'B':[50.1, 1.23, 4.5, 4.3, 3.2], 'C':[5.2, 3.1, 2.2, 1., 3.]})

df.to_csv('data1.csv', index=False)
df.to_csv('data2.csv', index=False)

dataset = tf.data.experimental.make_csv_dataset(
    "/content/*.csv",
    batch_size=2,
    field_delim=",",
    num_epochs=1,
    select_columns=['A', 'B', 'C'],
    label_name='C')

dataset_len = len(list(dataset.map(lambda x, y: (x, y))))
print(dataset_len)
5

如果您想知道总共有多少样品,请try unbatch:

dataset_len = len(list(dataset.unbatch().map(lambda x, y: (x, y))))
print(dataset_len)
# 10

Python-3.x相关问答推荐

是否可以使用参数对Flask重定向?

在多个测试中维护和报告变量

S的两极是什么,相当于大Pandas 的`.ilo‘方法?

具有多个值的极轴旋转和熔化/取消旋转(反转旋转)操作(Pandas 堆叠/取消堆叠交替/UDF覆盖)

正确的本地react 方式-Django身份验证

继承自 Counter 与 dict 的类实例的 Deepcopy

替换 .txt 文件中的项目列表

我正在使用 python 线程,当查询 mysql 时,代码似乎在运行并保持在无限循环中,没有返回任何错误

Keras 中 Conv2D 层的意外结果

获取字符串中的两个工作日之间的差异

在python中循环处理时并行写入文件

Pandas 将列格式化为货币

解包时是否可以指定默认值?

PyQt:退出时没有错误消息(回溯)

获取比较多列的最大值并返回特定值

多个返回函数的列表理解?

如何从字典中打印特定键值?

'~'(波浪号)运算符在 Python 中的应用

sys.stdin.readline() 读取时没有提示,返回 'nothing in between'

Python,Docker - ascii编解码器无法编码字符