本文最后更新于 38 天前,其中的信息可能已经有所发展或是发生改变。
这是使用LM studio的电脑的配置
CPU:Intel Core i5-12490F @ 6核12线程
RAM:32GB DDR4 3200MHz
GPU:Nvidia GeForce RTX3060Ti 8GB PCIe4 @ 共享GPU内存16GB,总GPU内存24GB
主要测试的模型是DeepSeek-R1-Distill-Qwen-7B-GGUF
,结果如下
GPU内存占用 | LLM最大token | GPU加载层数 |
14.5 | 131072 | 14 |
8.8 | 65536 | 14 |
5.9 | 32768 | 14 |
4.5 | 16384 | 14 |
4.1 | 8192 | 14 |
3.9 | 4096 | 14 |
19.9 | 131072 | 28 |
12.6 | 65536 | 28 |
9.0 | 32768 | 28 |
7.2 | 16384 | 28 |
6.3 | 8192 | 28 |
5.9 | 4096 | 28 |
同时还有一个Qwen2-VL-7B-Instruct-GGUF
模型的
GPU内存占用 | LLM最大token | GPU加载层数 |
11.7 | 32768 | 28 |