无涯教程网

Python 在Google Colab中设置Llama2出现问题加载判断点碎片时Cellrun失败

发布于04月18日

我试图在Google Colab(Python 3.10.12)中使用Llama 2 chat(通过拥抱脸)和7 B参数.我已经通过Meta获得了我的访问令牌.我只是使用拥抱脸的代码来了解如何实现该模型以及我的访问令牌.这是我的代码:

!pip install transformers
 
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

token = "---Token copied from Hugging Face and pasted here---"

tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-chat-hf", token=token)
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-7b-chat-hf", token=token)

它开始下载模型，但当它到达加载判断点碎片时:它只是停止运行并且没有错误:

推荐答案

问题在于Colab实例的RAM耗尽.根据您的 comments ，您正在使用具有12.7 GB中央处理器RAM的基本Colab实例.

对于LLama模型，您需要:

对于float 32型号约为25 GB(但您需要处理器RAM和相同的25 GB处理器RAM);
对于bfloat 16模型来说，大约13 GB(仍然不足以适应基本的Colab CPu实例，因为您还需要对模型进行计算);

请判断此链接以了解所需资源的详细信息: huggingface.co/NousResearch/Llama-2-7b-chat-hf/discussions/3

此外，如果您只想对模型进行推断(预测)，我建议使用其量化4位或8位版本.两者都可以在中央处理器上运行，并且不需要大量内存.

Python相关问答推荐

Pandas 第二小值有条件

PywinAuto在Windows 11上引发了Memory错误，但在Windows 10上未引发

无法定位元素错误404

如何获取numpy数组的特定索引值？

将9个3x3矩阵按特定顺序排列成9x9矩阵

递归访问嵌套字典中的元素值

Asyncio：如何从子进程中读取stdout？

如何在Python中找到线性依赖mod 2

从嵌套的yaml创建一个嵌套字符串，后面跟着点

需要帮助重新调整python fill_between与数据点

使用Python查找、替换和调整PDF中的图像'

OpenGL仅渲染第二个三角形，第一个三角形不可见

一个telegram 机器人应该发送一个测验如何做？""

用fft计算指数复和代替求和来模拟衍射？

如何在Gekko中处理跨矢量优化

我什么时候应该使用帆布和标签？

如何编辑此代码，使其从多个EXCEL文件的特定工作表中提取数据以显示在单独的文件中

浏览超过10k页获取数据，解析：欧洲搜索服务：从欧盟站点收集机会的微小刮刀&

有了Gekko，可以创建子模型或将模型合并在一起吗？

在Pandas 中以十六进制显示/打印列？

实用课程推荐

相关教程推荐