我试图在Google Colab(Python 3.10.12)中使用Llama 2 chat(通过拥抱脸)和7 B参数.我已经通过Meta获得了我的访问令牌.我只是使用拥抱脸的代码来了解如何实现该模型以及我的访问令牌.这是我的代码:

!pip install transformers
 
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

token = "---Token copied from Hugging Face and pasted here---"

tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-chat-hf", token=token)
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-7b-chat-hf", token=token)

它开始下载模型,但当它到达加载判断点碎片时:它只是停止运行并且没有错误:

enter image description here

推荐答案

问题在于Colab实例的RAM耗尽.根据您的 comments ,您正在使用具有12.7 GB中央处理器RAM的基本Colab实例.

对于LLama模型,您需要:

  • 对于float 32型号约为25 GB(但您需要处理器RAM和相同的25 GB处理器RAM);
  • 对于bfloat 16模型来说,大约13 GB(仍然不足以适应基本的Colab CPu实例,因为您还需要对模型进行计算);

请判断此链接以了解所需资源的详细信息: huggingface.co/NousResearch/Llama-2-7b-chat-hf/discussions/3

此外,如果您只想对模型进行推断(预测),我建议使用其量化4位或8位版本.两者都可以在中央处理器上运行,并且不需要大量内存.

Python相关问答推荐

Pandas 第二小值有条件

PywinAuto在Windows 11上引发了Memory错误,但在Windows 10上未引发

无法定位元素错误404

如何获取numpy数组的特定索引值?

将9个3x3矩阵按特定顺序排列成9x9矩阵

递归访问嵌套字典中的元素值

Asyncio:如何从子进程中读取stdout?

如何在Python中找到线性依赖mod 2

从嵌套的yaml创建一个嵌套字符串,后面跟着点

需要帮助重新调整python fill_between与数据点

使用Python查找、替换和调整PDF中的图像'

OpenGL仅渲染第二个三角形,第一个三角形不可见

一个telegram 机器人应该发送一个测验如何做?""

用fft计算指数复和代替求和来模拟衍射?

如何在Gekko中处理跨矢量优化

我什么时候应该使用帆布和标签?

如何编辑此代码,使其从多个EXCEL文件的特定工作表中提取数据以显示在单独的文件中

浏览超过10k页获取数据,解析:欧洲搜索服务:从欧盟站点收集机会的微小刮刀&

有了Gekko,可以创建子模型或将模型合并在一起吗?

在Pandas 中以十六进制显示/打印列?