小模型大野心 - 迷途小书童的Note迷途小书童的Note

事情是这样的。我在一台很普通的笔记本上，跑了一个120亿参数的开源模型，Gem)ma 4 12B，Google前不久刚发的。

注意，是在我自己的电脑上，完全离线，网线拔了都能跑的那种。然后我让这个模型写一个C++游戏。

结果你猜怎么着。

它真写出来了。

不只是写出来了，是能编译、能运行、能玩的那种。

它在agentic框架里自己规划方案、自己装依赖库、头文件路径不对就自己找、编译器太老就自己调，卡住了干脆重写整个文件，硬是把游戏从零搓了出来。

我当时盯着屏幕，脑子里只有一个念头。

这模型疯了，疯了。

120亿参数，在今天这个动辄几千亿上万亿的AI世界里，真的只能算个小家伙。GPT-4据传1.8万亿，Gemini Ultra也是万亿级别，12B放进去连零头都算不上。但就是这么个小家伙，在我的笔记本上，自己把能跑的C++游戏写出来了。

这事放在半年前，你敢想？

说到这个，我其实特别想聊聊以前的本地模型是什么样。

过去想在本地跑一个多模态模型，基本上就是一场硬件军备竞赛。32GB显存是起步价，64GB才算舒适，128GB才敢说流畅。普通人的笔记本，16GB内存，只能当个看客。你别说跑模型了，你连下载权重的勇气都没有。

而且就算你咬牙上了硬件，本地模型的表现也经常让人想说一句，「我到底图啥」。

代码写一半开始胡言乱语，前端做出来的网页像是2005年的产品，稍微复杂一点的逻辑就开始鬼打墙。你花了两个小时配环境、下载模型、调参数，最后发现它连一个能用的计算器都写不利索。

那种感觉怎么说呢，就像你花了大价钱买了一台咖啡机，结果它磨出来的咖啡还不如速溶的。

所以很长一段时间里，我跟很多人的想法一样，本地模型嘛，凑合能用就行，别抱太大希望。真正干活，还是得老老实实调API，付token费。

但Gemma 4 12B这次，是真的不一样。

说到不同，Gemma 4 12B最骚的地方在哪呢，不是它的参数多大，也不是它的跑分多高，而是它的架构设计。

传统的多模态模型长什么样呢，你可以想象一个主厨，带着两个助理厨师。一个助理专门处理图片，先把图片切成小块、压缩成特征向量，再翻译成语言模型能懂的语言。另一个助理专门处理音频，把声音信号转成语义表示，再翻译一遍。最后两个助理把翻译好的东西递给主厨，主厨才开始干活。

这套流程很成熟，但有个根本问题，每次翻译都是一次信息损耗。图片细节在压缩的时候被模糊掉了，音频的时序信息在编码的时候被削弱了，等传到主厨手里，信息已经打了折扣。

Gemma 4 12B的做法很粗暴。

它把两个助理厨师全开了。

图片直接投进主干网络，音频直接投进主干网络，不翻译了。视觉侧只留了一个三千五百万参数的小型嵌入器，就是把48乘48像素的分块做一次矩阵乘法，直接映射到语言模型的隐藏空间。音频侧更直接，16kHz的原始音频按40毫秒切帧，每帧640个浮点数，一行线性变换就进去了。

你想想看，你看到一张图的时候，你会先把它「翻译」一遍再理解吗？不会。你就是直接看到了。

Gemma 4 12B想做的就是这个，让模型「直接看到」，而不是「先翻译再理解」。

这个设计的好处是实打实的。延迟降了，少了编码器这一层，处理路径更短。内存也省了，不用给独立的编码器分配显存，16GB内存就能跑Q4量化版本，Q8量化也只要13.4GB。还有最妙的一点，视觉、音频、文本三种输入共享完全相同的权重，端到端联合微调的时候，一次训练就同时更新了整个多模态的循环，不需要「先冻住编码器再调语言模型」这么拧巴的操作。

坦率的讲，我觉得这个设计思路，比单纯堆参数有意思多了。

好了，参数和架构聊到这。接下来说点更实在的，这模型跑起来到底怎么样。

我给自己定了一套测试标准，就是我平时只给前沿大模型用的那套，没有手软。

我是故意的。

我想看看，一个12B的小模型，在我的笔记本上，到底能撑到什么程度。

先说第一个。我让它生成一个能在浏览器里跑的桌面系统。

它给了我大概390行代码。一开始有语法错误，我把控制台报错原文丢给它，它自己道歉、定位、修好了。开始菜单能开，记事本能用，计算器算47乘52正确，系统信息正常显示。

到这我其实觉得还行，不算太意外。

但接下来它做了一个3D的GTA风格小游戏，嵌在这个网页操作系统里面。镜头移动非常顺滑，是一个能闪避的3D跑酷，还做了一个会篡改系统「时间步长」的特殊功能。

一个12B的本地模型，在浏览器里搞出了一个带3D跑酷的操作系统。

行吧，有点东西。

接着测第二个。我让它做一个3D打印机模拟器。

打印机形状正确，喷头按指定图案移动，确实在「挤出」材料。切换圆形、三角形、方形都能跟上，旋转视角流畅。

测到这的时候我跟自己说，这已经不是「勉强能用」的水平了，是「真的能干活」的水平。

接着测第三个。我把自己用AI做的一个网站UI截图丢给它，让它复刻网页。

这一关是最大的惊喜。

成品完全不像前代本地模型做出来的那种「老式网页」，你知道我说的是哪种，就是那种上世纪风格的、文字堆在一起的、毫无设计感的东西。Gemma 4 12B做出来的，是一种更现代的UI审美。商家名称排列规整，没有报错。我又加了扩展任务，可交互图表、用户评价、价格卡片，全部做到了。

然后我又给了它一个更离谱的测试，丢了一张简陋线框草图给它，让它做高端品牌网站。模型自己判断「你没说卖什么，那我按极简轻奢来做」，做了一个手表品牌站，文案是「时间静默流逝定义的深厚工艺」这种调调。骨架完全是高端站的样子。

一个本地模型，居然有审美。

我有点懵了。

聊完我自己的实测，再聊聊我对这件事的判断。

最近我在想一个事，Google发这个模型，其实是个阳谋。

你想想当下的局面。OpenAI和Anthropic的模型越做越大、越做越贵，GPT-4的API按token计费，一个月用下来几十上百美元很正常。普通开发者、独立开发者、小团队，很多时候不是在纠结「哪个模型最强」，而是在纠结「我用不用得起」。

Google在这个节点，放出一个12B参数、能在消费级显卡上跑、Apache 2.0协议完全可商用的开源多模态模型。

这个时间点选得，我只能说，有点骚。

你作为一个开发者，当你的RTX 4090甚至RTX 3060就能在本地跑一个能写代码、能看图片、能听音频的模型时，为什么还要每个月付几十美元给API服务呢？

而且Gemma 4 12B还配了一个叫MTP drafter的小模型，只有0.4B参数，专门用来加速推理的。工作原理叫投机解码，小模型先快速预测接下来的几个token，主模型并行验证，预测对了直接采纳，相当于一次推理生成了多个token。我测下来，生成1000个token的任务，可以从30秒压缩到10秒左右。

测到现在，我脑子里一直转着一个概念，叫「模型路由」。用便宜的本地小模型搭骨架、铺大部分代码，再用一个更强更贵的大模型做少量收尾和bug修复。本地部分几乎零成本，云端只为「最后一公里」付费。

性价比拉满。

我觉得这个思路，才是AI工具真正走向大众的方式。不是让每个人都去买最新的A100，也不是让每个人都去订阅最贵的API，而是让你的笔记本电脑、你桌上的那台机器，变成你的AI工作站。

顺着上面的再聊聊。

AI行业这几年有一个执念，参数越大越好。从几十亿吹到几千亿，训练算力从几千张卡堆到几万张卡。大家都在往金字塔尖上爬，能用的模型越来越强，但门槛也越来越高。

你如果是大厂的研究员，有几百张A100随你用，你当然不关心「16GB内存能不能跑」。但如果你是一个刚毕业的学生，在四五线城市的出租屋里，用着一台16GB内存的笔记本，想学AI开发，想做点小工具，想试试看能不能用AI做点什么，你怎么办？

Gemma 4 12B的意义不在跑分。

它的MMLU Pro拿了77.2分，LiveCodeBench v6拿了72分，这些数字当然好看，但这不是重点。重点是这个模型把「像样的编码智能」这件事的门槛，从「你需要一台工作站」砸到了「你桌上那台笔记本就行」。

这个问题我也一直在想。技术进步的最终受益人，到底是谁？如果AI越来越强，但只有付得起钱的人才能用上，那它到底是缩小了差距，还是把差距拉得更大了？

Gemma 4 12B给了一个让我很踏实的答案。

一个12B的模型，Apache 2.0协议，16GB内存就能跑，能看图片，能听音频，能写代码，能自己debug，能在你的笔记本上全离线地跑。

这种感觉太爽了。

我有时候觉得，真正伟大的技术，不是把上限推得多高，而是把下限抬得多高。不是让强者更强，而是让普通人也能做以前做不到的事。

就像当年个人电脑的出现，把计算能力从机房带到了每个人的桌上。就像智能手机的出现，把互联网塞进了每个人的口袋。

现在，真正的AI能力，也正在经历同样的下放。

写在最后。

我自己跑Gemma 4 12B的所有测试，花了差不多一整天。说实话，测之前我心里默认的期待值是「凑合能用、别抱太大希望」。但测完之后，我发现自己在好几个节点，盯着屏幕说了一句「我靠」。

如果你有一台16GB显存或者16GB统一内存的机器，这个模型值得今天就拉下来试试。门槛低到没有不试的理由。

去LM Studio搜一下，或者去HuggingFace下载litert-community/gemma-4-12B-it-litert-lm，Q8量化版本大概7个G。

您必须 登录 才能发表评论！

您必须登录才能发表评论！