2026年05月的内容

vLLM的Rust前端PR了，预处理吞吐量直接翻了5倍！

来自 @inferact 的 @BugenZhao 在 PyTorch 新加坡会议上介绍了这项工作。 LLM 推理这块，GPU 算力一直在高速迭代，但有意思的事来了——硬件越强，Python 前端反而越不够用了。原因很简单：当 KV 缓存基本全命中的时候，GPU 跑完一次推理快得出奇，但 Python 那头处理请求、解析参数、做 Token 预处理，反而成了整条链路最慢的地方。CPU 先跑满了，GPU 在等。 v……继续阅读 »

迷途小书童 2个月前 (05-31) 767浏览 0评论 0个赞

边缘AI

大模型跑在端侧，到底有多难？我们踩过的那些坑

“端侧 AI 是未来。” 这句话你可能听了不下一百遍了。发布会上，每家芯片厂商都在讲”端侧大模型”、”离线推理”、”隐私计算”，PPT 做得比电影海报还好看。但你知道真正把大模型塞进一颗手机芯片/边缘AI芯片里跑起来，是什么体验吗？就两个字：渡劫。近两年，我一直在端侧 AI 这条路上摸爬滚打，模型格式转换、模型量化……继续阅读 »

迷途小书童 2个月前 (05-27) 733浏览 0评论 0个赞

人工智能

AI 生成的前端界面，为什么总是不够好看？

用 AI 写前端，你有没有遇到过这种情况—— 代码跑起来没问题，功能都有，但打开一看，总感觉哪里不对劲。间距挤、排版乱、视觉层次平、配色说不上哪里丑但就是丑…… 和真正有设计感的界面放在一起，差距一眼就出来了。问题出在哪？不是 AI 的代码写得烂，是它根本不懂设计。设计师靠的是多年积累的「直觉」——哪里该留白，间距给多少，字号怎么拉开层次，这些东西他们不用想，看一眼就知道怎么处理。但 AI 没有这套直觉。……继续阅读 »

迷途小书童 3个月前 (05-07) 653浏览 0评论 1个赞

人工智能

阿里通义VimRAG：让AI同时”读文档、看图片、看视频”

传统AI知识库只能查文字，VimRAG让AI学会了”图文视频一起看”。先讲一个真实场景假设你是一家制造企业的工程师，公司知识库里有： 10万份含图表的PDF技术文档 5万张CAD设计图纸和产线照片上千条时长30到60分钟的操作培训视频现在你问AI一个问题： “去年Q3产品的设计变化了哪些方面？会议录像里是怎么讨论这个设计的？” 要回答这个问题，……继续阅读 »

迷途小书童 3个月前 (05-03) 625浏览 0评论 0个赞