为什么我的 Rust 程序比等效的 Java 程序慢

发布于08月12日

我在Rust年的时候玩过二进制序列化和反序列化，注意到二进制反序列化比Java慢几个数量级.为了消除由于分配和开销而产生的开销，我只是从每个程序中读取一个二进制流.每个程序从磁盘上的一个二进制文件中读取数据，该文件包含一个包含输入值个数的4字节整数，以及一个连续的8字节big-endian IEEE 754编码浮点数块.以下是Java实现:

import java.io.*;

public class ReadBinary {
    public static void main(String[] args) throws Exception {
        DataInputStream input = new DataInputStream(new BufferedInputStream(new FileInputStream(args[0])));
        int inputLength = input.readInt();
        System.out.println("input length: " + inputLength);
        try {
            for (int i = 0; i < inputLength; i++) {
                double d = input.readDouble();
                if (i == inputLength - 1) {
                    System.out.println(d);
                }
            }
        } finally {
            input.close()
        }
    }
}

以下是Rust实现:

use std::fs::File;
use std::io::{BufReader, Read};
use std::path::Path;

fn main() {
    let args = std::env::args_os();
    let fname = args.skip(1).next().unwrap();
    let path = Path::new(&fname);
    let mut file = BufReader::new(File::open(&path).unwrap());
    let input_length: i32 = read_int(&mut file);
    for i in 0..input_length {
        let d = read_double_slow(&mut file);
        if i == input_length - 1 {
            println!("{}", d);
        }
    }
}

fn read_int<R: Read>(input: &mut R) -> i32 {
    let mut bytes = [0; std::mem::size_of::<i32>()];
    input.read_exact(&mut bytes).unwrap();
    i32::from_be_bytes(bytes)
}

fn read_double_slow<R: Read>(input: &mut R) -> f64 {
    let mut bytes = [0; std::mem::size_of::<f64>()];
    input.read_exact(&mut bytes).unwrap();
    f64::from_be_bytes(bytes)
}

我正在输出最后一个值，以确保所有输入都被读取.在我的机器上，当文件包含(相同的)3000万个随机生成的double时，Java版本在0.8秒内运行，而Rust版本在40.8秒内运行.

由于怀疑Rust的字节解释本身效率低下，我用一个自定义浮点反序列化实现重试了它.内部构件为almost exactly the same as what's being done in Rust's Reader个，无IoResult个包装:

fn read_double<R : Reader>(input: &mut R, buffer: &mut [u8]) -> f64 {
    use std::mem::transmute;
    match input.read_at_least(8, buffer) {
        Ok(n) => if n > 8 { fail!("n > 8") },
        Err(e) => fail!(e)
    };
    let mut val = 0u64;
    let mut i = 8;
    while i > 0 {
        i -= 1;
        val += buffer[7-i] as u64 << i * 8;
    }
    unsafe {
        transmute::<u64, f64>(val);
    }
}

为了实现这一点，我对早期的Rust代码所做的唯一更改是创建一个8字节的片，以便传入并(重新)在read_double函数中用作缓冲区.这带来了显著的性能提升，平均运行时间约为5.6秒.不幸的是，这要慢得多(而且更冗长！)与Java版本相比，很难扩展到更大的输入集.有什么办法可以让它在Rust 的地方跑得更快吗？更重要的是，有没有可能将这些更改合并到默认Reader实现中，从而减少二进制I/O的痛苦？

以下是我用来生成输入文件的代码，仅供参考:

import java.io.*;
import java.util.Random;

public class MakeBinary {
    public static void main(String[] args) throws Exception {
        DataOutputStream output = new DataOutputStream(new BufferedOutputStream(System.out));
        int outputLength = Integer.parseInt(args[0]);
        output.writeInt(outputLength);
        Random rand = new Random();
        for (int i = 0; i < outputLength; i++) {
            output.writeDouble(rand.nextDouble() * 10 + 1);
        }
        output.flush();
    }
}

(请注意，在我的测试机器上，生成随机数and并将其写入磁盘只需3.8秒.)

为什么我的 Rust 程序比等效的 Java 程序慢

推荐答案

Rust相关问答推荐

把Vector3变成Vector4的绝妙方法

展开枚举变量并返回所属值或引用

定义只有一些字段可以缺省的 struct

Rust编译器似乎被结果类型与anyhow混淆

返回Result<；()，框<；dyn错误>>；工作

如何使用reqwest进行异步请求？

为什么比较Option<；字符串>；具有常数Option<&；str>；需要显式类型转换吗？

为什么HashMap：：get和HashMap：：entry使用不同类型的密钥？

为什么在 Allocator API 中 allocate() 使用 `[u8]` 而 deallocate 使用 `u8` ？

如何处理闭包中的生命周期以及作为参数和返回类型的闭包？

为什么需要静态生命周期以及在处理 Rust 迭代器时如何缩小它？

unwrap 选项类型出现错误：无法移出共享引用后面的*foo

有没有办法通过命令获取 Rust crate 的可安装版本列表？

&self 参数在 trait 的功能中是必需的吗？

在异步 Rust 中，Future 如何确保它只调用最近的 Waker？

如何展平以下嵌套的 if let 和 if 语句？

将一片字节复制到一个大小不匹配的数组中

实现不消费的迭代器

在空表达式语句中移动的值

为什么这个值在上次使用后没有下降？