本地怎么跑大模型——使用LM Studio吧

2024 年 12 月 20 日 星期五(已编辑)
67
AI 生成的摘要
这篇文章上次修改于 2024 年 12 月 20 日 星期五,可能部分内容已经不适用,如有疑问可询问作者。

本地怎么跑大模型——使用LM Studio吧

最近入了本地大模型的坑,其实一直想入,苦于笔记本的独显是只有4G显存的RTX 3050 Laptop,欲入门而无法。现在好了,发现Apple设备推理效果也不错,而且手头恰好有个M2的Mac Mini,实在是尤为幸运,于是有了这篇。

说到用户友好,我们通常指的是可以开箱即用,最好有个图形化界面,docker与Ollama或许算得上开箱即用,但是和图形化就不沾什么关系,我要隆重推荐的就是——LM Studio。

前期准备

为什么要推荐它呢,因为它善。打开它的下载界面,嚯,够现代化的,按着自己的系统要求下载客户端就好,Apple设备需要M系列芯片。

截屏2024-12-19 下午11.11.29.png

截屏2024-12-19 下午11.11.29.png

就正常下载安装,打开后可以看到主界面(当然第一次打开不是这样的)

截屏2024-12-19 下午11.14.57.png

截屏2024-12-19 下午11.14.57.png

把目光移到右下角的齿轮图标上,可以打开设置把语言切换为中文,虽然说翻译不全,但是总比没有强。

截屏2024-12-19 下午11.22.40.png

截屏2024-12-19 下午11.22.40.png

好了,前期的准备到这里就差不多结束了,可以把我们的大模型端上来了。

下载加载大模型

说LM Studio 善,首先就在于它有非常便捷的大模型下载路径。

截屏2024-12-19 下午11.15.57.png

截屏2024-12-19 下午11.15.57.png

只要点击这个发现的放大镜(从上往下第四个),就可以搜索各式各样的大模型,由于这些模型都来自Hugging Face,所以需要有个比较干净的ip才可以下载。

截屏2024-12-20 上午12.09.46.png

截屏2024-12-20 上午12.09.46.png

我们可以看着模型大小进行选择,由于Apple的M系列芯片是统一内存架构,因此内存与显存共用同一个内存池,根据苹果的最新消息,显存最多可以占用总内存的75%(好像是,记不太清了),而大模型在运行过程中也会消耗一些显存,所以模型大小在总内存大小的一半左右就差不多可以运行。

另外,值得一提的是LM Studio支持苹果的MLX深度学习框架,数据传输开销比Pytorch要小,也比常见的GGUF格式更适合M系列芯片,所以选择模型时最好选择MLX的模型。

把模型下载好之后,就可以加载它了。经过反复实验,我的8G内存的Mac Mini能跑的最好的模型是Qwen2-7B-Instruct-4bit模型,不仅可以拉满32k的上下文,而且速度也相当可观,中文的掌握能力也好于国外大模型。

截屏2024-12-20 上午12.38.48.png

截屏2024-12-20 上午12.38.48.png

有一说一,千问模型推出后,我对阿里云的印象可谓是直接反转,虽然说阿里云新加坡机房着火,异地容灾几乎没有,但是训练了Qwen,还原生支持日语韩语,那就很好,利好漫画翻译,值得赞叹,马云老师可谓是“一洗万古凡马空”。

然后就可以和Qwen2-7B对话,生成速度就丰俭由人,不过可以用我的M2做参照。

截屏2024-12-20 上午12.42.52.png

截屏2024-12-20 上午12.42.52.png

大概是19.9 tokens/s,属于是可用状态,相比于Phi 3 的胡言乱语,Gemma 2 的不懂中文,Deepseek 的大而无当,Mistral 的自问自答,Qwen2显得可爱又平和,我爱它,至于RAG和本地调用api之类的,下次再说吧。

截屏2024-12-20 下午6.18.12.png

截屏2024-12-20 下午6.18.12.png

果然4bit量化还是太笨了,改天试试Qwen2.5会不会是一样笨笨的,我果然还是爱它,不会骂它是个傻缺。

使用社交账号登录

  • Loading...
  • Loading...
  • Loading...
  • Loading...
  • Loading...