使用 LM Studio 在 macOS 中本地运行大模型

LM Studio

本地运行大模型的工具中,LM Studio 和 Ollama 是最受欢迎的两款。在最近这一次的更新中,LM Studio 新增了对 MLX 的支持。
Ref: Mac跑大模型,首选LM Studio

选择 LM Studio 是因为自带 Chat 的 UI ,而且支持 MLX 。

不过 MLX 模型比较少,更新也慢。

MLX,是苹果公司开源的一个机器学习框架,专门为M系列芯片做了优化。

使用

下载安装后,点击左侧的搜索按钮可以下载模型

LM Stuidio

下载完成后点击顶部的 Select a model to load 就可以开始对话了。

切换语言

LM Studio UI 支持多种语言,右下角点击设置的齿轮图标,在 General 中可以切换。

运行速度

模型占用的内存与实际模型的大小差不多。

输出速度:

lmstudio-community/Qwen2.5-Coder-7B-Instruct-GGUF

1
42.12 tok/sec • 636 tokens • 0.20s to first token

Qwen2.5-Coder-14B-Instruct-MLX-8bit

1
15.42 tok/sec • 734 tokens • 1.19s to first token

这个运行起来比较卡顿,输出不是很连贯。

Qwen2.5-Coder-14B-Instruct-MLX-8bit

1
25.73 tok/sec • 758 tokens • 3.96s to first token

选择模型

模型参数(B 表示 Billion,十亿参数)是衡量模型复杂程度的关键指标之一。参数越大,模型的表现力和准确度通常越高,适合处理更复杂的任务,例如高质量的文本生成或对话理解。
本地使用常见的是 7/14B

  • 7B :参数较少,占用资源较低,运行速度较快,推荐基础问答或文案生成。
  • 14B :如果需要更高精度或复杂推理的任务,可以试试。

量化版本
量化是指将模型的权重数据从高精度(如 16bit 或 32bit)压缩到更低的精度(如 4bit 或 8bit),以降低模型的内存占用和计算需求。

  • 4bit 模型:精度降低幅度较大,但大多数任务仍然能保持足够的准确度,同时运行速度更快、资源占用更少,适合对性能优化要求高的场景。
  • 8bit 模型:相比 4bit,更接近原始模型的表现,适合需要更高质量输出的需求。

一般来说 4bit 的量化足够本地使用了,速度相对更快,占用资源更少。

问题

如果开启了输入法,使用 Enter 选词会立即提交,可以把提交改为 Ctrl + Enter 或是使用空格选词(