Rust 为什么 File：：read_to_end 缓冲区容量越大越慢

发布于04月20日

我当时正在处理一个非常具体的问题，它要求我读取数十万个从几个字节到几百兆字节的文件.由于大部分操作包括枚举文件和从磁盘移动数据，我求助于重用Vec个缓冲区来读取文件，希望避免一些内存管理.

这就是我遇到意外的时候:缓冲区的容量越大，file.read_to_end(&mut buffer)?的速度就越慢.首先读取300MB的文件，然后读取file.read_to_end(&mut buffer)?0个1KB的文件，这比反过来读取要慢得多(只要我们不截断缓冲区).

令人困惑的是，如果我将文件包装在Take或read_exact()中，则不会发生减慢.

有人知道这是怎么回事吗？是否有可能在每次调用时都(重新)初始化整个缓冲区？这是Windows特有的怪癖吗？在处理此类问题时，您会推荐哪些(基于Windows的)分析工具？

以下是一个简单的复制品，它演示了在不考虑磁盘速度的情况下，这两种方法之间的huge(在这台机器上是50倍以上)性能差异:

use std::io::Read;
use std::fs::File;

// with a smaller buffer, there's basically no difference between the methods...
// const BUFFER_SIZE: usize = 2 * 1024;

// ...but the larger the Vec, the bigger the discrepancy.
// for simplicity's sake, let's assume this is a hard upper limit.
const BUFFER_SIZE: usize = 300 * 1024 * 1024;


fn naive() {
    let mut buffer = Vec::with_capacity(BUFFER_SIZE);

    for _ in 0..100 {
        let mut file = File::open("some_1kb_file.txt").expect("opening file");

        let metadata = file.metadata().expect("reading metadata");
        let len = metadata.len();
        assert!(len <= BUFFER_SIZE as u64);

        buffer.clear();
        file.read_to_end(&mut buffer).expect("reading file");

        // do "stuff" with buffer
        let check = buffer.iter().fold(0usize, |acc, x| acc.wrapping_add(*x as usize));

        println!("length: {len}, check: {check}");
    }
}

fn take() {
    let mut buffer = Vec::with_capacity(BUFFER_SIZE);

    for _ in 0..100 {
        let file = File::open("some_1kb_file.txt").expect("opening file");

        let metadata = file.metadata().expect("reading metadata");
        let len = metadata.len();
        assert!(len <= BUFFER_SIZE as u64);

        buffer.clear();
        file.take(len).read_to_end(&mut buffer).expect("reading file");

        // this also behaves like the straight `read_to_end` with a significant slowdown:
        // file.take(BUFFER_SIZE as u64).read_to_end(&mut buffer).expect("reading file");

        // do "stuff" with buffer
        let check = buffer.iter().fold(0usize, |acc, x| acc.wrapping_add(*x as usize));

        println!("length: {len}, check: {check}");
    }
}

fn exact() {
    let mut buffer = vec![0u8; BUFFER_SIZE];

    for _ in 0..100 {
        let mut file = File::open("some_1kb_file.txt").expect("opening file");

        let metadata = file.metadata().expect("reading metadata");
        let len = metadata.len() as usize;
        assert!(len <= BUFFER_SIZE);

        // SAFETY: initialized by `vec!` and within capacity by `assert!`
        unsafe { buffer.set_len(len); }
        file.read_exact(&mut buffer[0..len]).expect("reading file");

        // do "stuff" with buffer
        let check = buffer.iter().fold(0usize, |acc, x| acc.wrapping_add(*x as usize));

        println!("length: {len}, check: {check}");
    }
}

fn main() {
    let args: Vec<String> = std::env::args().collect();

    if args.len() < 2 {
        println!("usage: {} <method>", args[0]);
        return;
    }

    match args[1].as_str() {
        "naive" => naive(),
        "take" => take(),
        "exact" => exact(),
        _ => println!("Unknown method: {}", args[1]),
    }
}

try 了在--release模式的几种组合中，LTO甚至+crt-static都没有明显的差别.

Rust 为什么 File：：read_to_end 缓冲区容量越大越慢

推荐答案

Rust相关问答推荐

如何从polars DataFrame中获取一个列作为Option String？<>

我怎样才能从一个Rust 的日期中go 掉3年？

Rust：跨多个线程使用hashmap Arc和rwlock

我如何在Rust中使用传递依赖中的特征？

有没有更好的方法从HashMap的条目初始化 struct ？

如何go 除多余的(0..)在迭代中，当它不被使用时？

写入引用会更新基础值，但引用会打印意外的值

Rust编译器似乎被结果类型与anyhow混淆

允许 rust 迹 struct 条目具有多种类型

由于生存期原因，返回引用的闭包未编译

Rust 重写函数参数

如何在 Rust 中打印 let-else 语句中的错误？

在没有任何同步的情况下以非原子方式更新由宽松原子操作 Select 的值是否安全？

sha256 摘要仅适用于 &*

如何为整数切片定义一个带有额外函数的特性别名？

如何在Rust中使用Serde创建一个自定义的反序列化器来处理带有内部标记的枚举

Rust typestate 模式：实现多个状态？

错误：将自定义 proc_macro 与用Rust 的宝贝编写的属性一起使用时，无法在此范围内找到属性

为什么我可以同时传递可变和不可变引用？

当我在 struct 中存储异步函数时，为什么它需要生命周期