本文最后更新于 263 天前,其中的信息可能已经有所发展或是发生改变。
这是使用LM studio的电脑的配置
CPU:Intel Core i5-12490F @ 6核12线程
RAM:32GB DDR4 3200MHz
GPU:Nvidia GeForce RTX3060Ti 8GB PCIe4 @ 共享GPU内存16GB,总GPU内存24GB
主要测试的模型是DeepSeek-R1-Distill-Qwen-7B-GGUF,结果如下
| GPU内存占用 | LLM最大token | GPU加载层数 |
| 14.5 | 131072 | 14 |
| 8.8 | 65536 | 14 |
| 5.9 | 32768 | 14 |
| 4.5 | 16384 | 14 |
| 4.1 | 8192 | 14 |
| 3.9 | 4096 | 14 |
| 19.9 | 131072 | 28 |
| 12.6 | 65536 | 28 |
| 9.0 | 32768 | 28 |
| 7.2 | 16384 | 28 |
| 6.3 | 8192 | 28 |
| 5.9 | 4096 | 28 |
同时还有一个Qwen2-VL-7B-Instruct-GGUF模型的
| GPU内存占用 | LLM最大token | GPU加载层数 |
| 11.7 | 32768 | 28 |