回溯(最近一次调用最后一次):
文件“/content/text- Generation-webui/modules/ui_model_menu.py”,第 206 行,位于 load_model_wrapper 中
shared.model, shared.tokenizer = load_model(shared.model_name, loader)
文件“/content/text- Generation-webui/modules/models.py”,第 84 行,位于 load_model 中
output = load_func_map[loader](model_name)
文件“/content/text- Generation-webui/modules/models.py”,第 356 行,在 ExLlamav2_HF_loader 中
return Exllamav2HF.from_pretrained(model_name)
文件“/content/text- Generation-webui/modules/exllamav2_hf.py”,第 156 行,from_pretrained
return Exllamav2HF(config)
文件“/content/text- Generation-webui/modules/exllamav2_hf.py”,第 43 行,在init中
self.ex_cache = ExLlamaV2Cache(self.ex_model)
文件“/usr/local/lib/python3.10/dist-packages/exllamav2/cache.py”,第 106 行,在init中
self.cached = Cache16Bit(model, self.batch_size, self.max_seq_len, num_key_value_heads, head_dim, num_hidden_layers, copy_from)
文件“/usr/local/lib/python3.10/dist-packages/exllamav2/cache.py”,第 35 行,在init中
p_key_states = torch.zeros(self.batch_size, self.max_seq_len, num_key_value_heads, head_dim, dtype = torch.float16, device = self.model.cache_map)
torch.cuda.OutOfMemoryError:CUDA 内存不足。尝试分配 70.00 MiB。GPU 0 的总容量为 14.75 GiB,其中 32.81 MiB 是免费的。进程 25734 有 14.71 GiB 内存正在使用。在已分配的内存中,13.73 GiB 由 PyTorch 分配,75.96 MiB 由 PyTorch 保留但未分配。如果保留但未分配的内存很大,请尝试设置 max_split_size_mb 以避免碎片。请参阅内存管理和 PYTORCH_CUDA_ALLOC_CONF 的文档
这个怎么搞,Colab环境