装好Hermes的那天晚上,我挺兴奋的。
hermes,响应出来,感觉跟第一次装好Claude Code一样,有种「行了行了,我进化了」的满足感。然后就开始用。
用了一周之后,我打开账单一看。。。
我直接愣住了。
Token消耗对不上,记不清楚在哪几个项目里烧了多少,Claude Code那边一块,Cursor那边一块,Hermes自己又一块,全是碎的,脑子里完全没有整体感。更难受的是,Hermes明明上次聊过的事,这次又让我重新介绍一遍,像个失忆了的实习生。
那个时候我才意识到,装上Hermes只是进门而已。
真正用起来顺手,需要给它配一套外围工具。这5个,是我自己装过、用了一段时间之后真正留下来的。前4个提升体验,最后1个我建议你看完这篇文章第一件事就去装。
先说结论,推荐顺序是:RTK → Hindsight → Tokscale → Ghostty → Camoufox。
不想看过程的话,这一行就够了。想知道为什么这么排,往下看。
先从第一件讲起。
装完Hermes之后,我第一个感觉不对劲的地方,不是模型,是终端本身。
Ghostty。
我以前一直用iTerm2,用了好多年,习惯了,也不觉得有什么问题。直到真的在CLI里高强度跟Hermes打了几天交道之后,才发现原来我一直在忍一些东西。响应稍微卡,配置要在GUI里翻半天,各种插件装了一堆又觉得不好管。
Ghostty是用Zig写的,GPU加速,启动速度跟iTerm2完全不是一个量级。更重要的是它的配置方式,直接改一个文本文件:
~/.config/ghostty/config
想换字体,加一行。想改主题,加一行。不用进UI界面,不用鼠标点,直接写,保存,生效。
font-family = JetBrains Mono
font-size = 15
theme = catppuccin-mocha
window-padding-x = 8
window-padding-y = 8
我试过一圈:Warp喜欢把很多事包起来替你做,你感觉方便但决定权被拿走了;Alacritty很快但太素;Kitty功能挺全但文档读起来像学一门新语言。Ghostty的取舍刚好在那个位置,性能和手感它来兜底,其他的你自己说了算。
如果你天天在CLI里跟Hermes打交道,这5分钟很值得花。
顺着上面的再说一个。
装好Ghostty,终端顺手了,Hermes用起来就更顺,就更容易进入那种「随手开一个对话」的状态。然后问题就来了。
你用了多少Token,你心里有数吗?
大多数人的答案是没有。不是不用,而是数据太散。Hermes的记录在 ~/.hermes/,Claude Code在 ~/.claude/projects/,Cursor又另一套,如果你还同时开着Codex或者Gemini CLI,那就更碎了,根本没有整体感觉。
Tokscale解决的就是这个问题。
它做的事情非常直接:把你本地20多个AI Coding Agent的使用数据全扫一遍,然后摊在一张终端仪表盘上。不用安装,一行命令直接跑:
npx tokscale@latest
启动之后,它自动扫描能识别到的数据源,Overview第一屏就能看到总Token、成本估算、高消耗模型排行。你一下子就知道,这周到底是Hermes烧的多,还是Claude Code烧的多,是哪个项目在漏钱。
命令也很灵活:
# 只看Hermes的用量
tokscale --client hermes
# 导出JSON
tokscale models --month --json > report.json
我最喜欢它那个GitHub绿格子风格的贡献图。每天的AI编程活跃度用色块深浅表示,原本「这周好像挺忙」的模糊印象,到这张图里变得非常具体,甚至有点直面现实的感觉。。。
有两个边界得顺手说一下。第一,它算出来的成本是API等价估算,如果你用的是Claude Max或者Cursor Pro这种订阅制,Tokscale的数字通常会高于你真实月费。它更适合横向比「谁最贵」,不适合直接当账单对。第二,默认全本地,不登录也能分析,只有排行榜和分享功能才需要GitHub登录。
说到这个,有一块我觉得比Token用量更难受。
就是Hermes不认识你这件事。
我不是说它笨,我是说它自带的记忆系统确实有点薄。MEMORY.md,能用,但有硬上限,大概2200字符,写满了就不再写了,也不会主动从对话里提实体和关系,更不带时间戳。坦率的讲,它记住你的能力,比你以为的弱一些。
Hindsight补的就是这块。
每次对话后,它会自动提取实体、事实和关系,带时间戳存起来。下次对话前,再把相关记忆注入上下文。听起来不复杂,但用起来以后那种感觉完全不一样。
装起来也很简单:
hermes memory setup
然后选hindsight。向导会自动把依赖装好。
接着去 https://ui.hindsight.vectorize.io/connect 注册,拿API Key。免费额度个人用完全够了。
验证:
hermes memory status
看到已激活、显示 bank_id、auto-recall、auto-retain 这些状态就装好了。
换完以后最明显的感受就是:Hermes终于开始「记得你是谁」了。你不用每次都从头再讲一遍自己在写什么、用什么框架、之前做到哪一步。这种感觉,就像你终于从一直在跟不同实习生解释需求,换成了真的带着一起工作过的人。
那种解放感,我觉得很难用别的方式形容。
这4个工具,前3个我觉得是「把Hermes补到能用」,Ghostty是「把环境补到舒服」。
第5个不一样。
RTK,Rust Token Killer。
如果这篇文章你只打算装一个,我建议就是这个。
它做的事很具体:你用Hermes在终端里干活的时候,很多命令的输出是极其冗余的。ls 列一堆文件,git status 里一堆未跟踪文件,cargo test 的详细日志几百行,但真正有用的可能就几行。这些内容全都进了LLM的上下文,全都在烧Token,但对任务本身毫无贡献。
RTK就夹在中间,先过滤一遍,把低价值的输出砍掉再传给Hermes。
效果嘛。。。直接减少60-90%的Token消耗。
你没看错。六十到九十。
brew install rtk
rtk init -g
rtk init -g 这一步装的是全局Hook。装完之后,Hermes调用shell工具时,命令就自动走RTK了,你不需要改任何习惯。
验证有没有在省:
rtk gain
rtk gain 会告诉你已经省了多少Token。第一次看到这个数字,我的第一反应是,为什么不早点装。
有一个边界别搞混:RTK只压缩终端工具输出,不改Hermes和LLM之间的通信。它不是靠少做事来省Token,是靠同样的工作烧更少的上下文来省。所以在开发者场景里,这类收益非常干净,基本没有副作用。
还有一个,补在最后,因为它有一定使用门槛,不是每个人都需要。
Camoufox。
Agent要真正在网页上做事,光会读文本是不够的。得能看页面、点按钮、填表单。Camoufox是专门给AI Agent用的浏览器,基于Firefox改的底层,在浏览器层做了指纹伪装、去臃肿和性能优化。被站点识别为「机器」的概率低,内存占用也比你想象的小。
pip install -U "camoufox[geoip]"
python -m camoufox fetch
用法兼容Playwright:
from camoufox.sync_api import Camoufox
with Camoufox() as browser:
page = browser.new_page()
page.goto("https://example.com")
print(page.title())
如果你原来有一套Playwright脚本,通常不用大改就能跑。
不过我得说清楚,它不是「万能绕过器」,风控一直在进化。个人Agent、研究和轻量自动化场景够用。到生产级别,速率控制和合规检查还是要自己加。
既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~