装完Hermes之后，我被这5个东西救了 - 迷途小书童的Note迷途小书童的Note

装好Hermes的那天晚上，我挺兴奋的。

终端里敲 hermes，响应出来，感觉跟第一次装好Claude Code一样，有种「行了行了，我进化了」的满足感。然后就开始用。

用了一周之后，我打开账单一看。。。

我直接愣住了。

Token消耗对不上，记不清楚在哪几个项目里烧了多少，Claude Code那边一块，Cursor那边一块，Hermes自己又一块，全是碎的，脑子里完全没有整体感。更难受的是，Hermes明明上次聊过的事，这次又让我重新介绍一遍，像个失忆了的实习生。

那个时候我才意识到，装上Hermes只是进门而已。

真正用起来顺手，需要给它配一套外围工具。这5个，是我自己装过、用了一段时间之后真正留下来的。前4个提升体验，最后1个我建议你看完这篇文章第一件事就去装。

先说结论，推荐顺序是：RTK → Hindsight → Tokscale → Ghostty → Camoufox。

不想看过程的话，这一行就够了。想知道为什么这么排，往下看。

先从第一件讲起。

装完Hermes之后，我第一个感觉不对劲的地方，不是模型，是终端本身。

Ghostty。

我以前一直用iTerm2，用了好多年，习惯了，也不觉得有什么问题。直到真的在CLI里高强度跟Hermes打了几天交道之后，才发现原来我一直在忍一些东西。响应稍微卡，配置要在GUI里翻半天，各种插件装了一堆又觉得不好管。

Ghostty是用Zig写的，GPU加速，启动速度跟iTerm2完全不是一个量级。更重要的是它的配置方式，直接改一个文本文件：

~/.config/ghostty/config

想换字体，加一行。想改主题，加一行。不用进UI界面，不用鼠标点，直接写，保存，生效。

font-family = JetBrains Mono
font-size = 15
theme = catppuccin-mocha
window-padding-x = 8
window-padding-y = 8

我试过一圈：Warp喜欢把很多事包起来替你做，你感觉方便但决定权被拿走了；Alacritty很快但太素；Kitty功能挺全但文档读起来像学一门新语言。Ghostty的取舍刚好在那个位置，性能和手感它来兜底，其他的你自己说了算。

如果你天天在CLI里跟Hermes打交道，这5分钟很值得花。

顺着上面的再说一个。

装好Ghostty，终端顺手了，Hermes用起来就更顺，就更容易进入那种「随手开一个对话」的状态。然后问题就来了。

你用了多少Token，你心里有数吗？

大多数人的答案是没有。不是不用，而是数据太散。Hermes的记录在 ~/.hermes/，Claude Code在 ~/.claude/projects/，Cursor又另一套，如果你还同时开着Codex或者Gemini CLI，那就更碎了，根本没有整体感觉。

Tokscale解决的就是这个问题。

它做的事情非常直接：把你本地20多个AI Coding Agent的使用数据全扫一遍，然后摊在一张终端仪表盘上。不用安装，一行命令直接跑：

npx tokscale@latest

启动之后，它自动扫描能识别到的数据源，Overview第一屏就能看到总Token、成本估算、高消耗模型排行。你一下子就知道，这周到底是Hermes烧的多，还是Claude Code烧的多，是哪个项目在漏钱。

命令也很灵活：

# 只看Hermes的用量
tokscale --client hermes

# 导出JSON
tokscale models --month --json > report.json

我最喜欢它那个GitHub绿格子风格的贡献图。每天的AI编程活跃度用色块深浅表示，原本「这周好像挺忙」的模糊印象，到这张图里变得非常具体，甚至有点直面现实的感觉。。。

有两个边界得顺手说一下。第一，它算出来的成本是API等价估算，如果你用的是Claude Max或者Cursor Pro这种订阅制，Tokscale的数字通常会高于你真实月费。它更适合横向比「谁最贵」，不适合直接当账单对。第二，默认全本地，不登录也能分析，只有排行榜和分享功能才需要GitHub登录。

说到这个，有一块我觉得比Token用量更难受。

就是Hermes不认识你这件事。

我不是说它笨，我是说它自带的记忆系统确实有点薄。MEMORY.md，能用，但有硬上限，大概2200字符，写满了就不再写了，也不会主动从对话里提实体和关系，更不带时间戳。坦率的讲，它记住你的能力，比你以为的弱一些。

Hindsight补的就是这块。

每次对话后，它会自动提取实体、事实和关系，带时间戳存起来。下次对话前，再把相关记忆注入上下文。听起来不复杂，但用起来以后那种感觉完全不一样。

装起来也很简单：

hermes memory setup

然后选hindsight。向导会自动把依赖装好。

接着去 https://ui.hindsight.vectorize.io/connect 注册，拿API Key。免费额度个人用完全够了。

验证：

hermes memory status

看到已激活、显示 bank_id、auto-recall、auto-retain 这些状态就装好了。

换完以后最明显的感受就是：Hermes终于开始「记得你是谁」了。你不用每次都从头再讲一遍自己在写什么、用什么框架、之前做到哪一步。这种感觉，就像你终于从一直在跟不同实习生解释需求，换成了真的带着一起工作过的人。

那种解放感，我觉得很难用别的方式形容。

这4个工具，前3个我觉得是「把Hermes补到能用」，Ghostty是「把环境补到舒服」。

第5个不一样。

RTK，Rust Token Killer。

如果这篇文章你只打算装一个，我建议就是这个。

它做的事很具体：你用Hermes在终端里干活的时候，很多命令的输出是极其冗余的。ls 列一堆文件，git status 里一堆未跟踪文件，cargo test 的详细日志几百行，但真正有用的可能就几行。这些内容全都进了LLM的上下文，全都在烧Token，但对任务本身毫无贡献。

RTK就夹在中间，先过滤一遍，把低价值的输出砍掉再传给Hermes。

效果嘛。。。直接减少60-90%的Token消耗。

你没看错。六十到九十。

brew install rtk
rtk init -g

rtk init -g 这一步装的是全局Hook。装完之后，Hermes调用shell工具时，命令就自动走RTK了，你不需要改任何习惯。

验证有没有在省：

rtk gain

rtk gain 会告诉你已经省了多少Token。第一次看到这个数字，我的第一反应是，为什么不早点装。

有一个边界别搞混：RTK只压缩终端工具输出，不改Hermes和LLM之间的通信。它不是靠少做事来省Token，是靠同样的工作烧更少的上下文来省。所以在开发者场景里，这类收益非常干净，基本没有副作用。

还有一个，补在最后，因为它有一定使用门槛，不是每个人都需要。

Camoufox。

Agent要真正在网页上做事，光会读文本是不够的。得能看页面、点按钮、填表单。Camoufox是专门给AI Agent用的浏览器，基于Firefox改的底层，在浏览器层做了指纹伪装、去臃肿和性能优化。被站点识别为「机器」的概率低，内存占用也比你想象的小。

pip install -U "camoufox[geoip]"
python -m camoufox fetch

用法兼容Playwright：

from camoufox.sync_api import Camoufox

with Camoufox() as browser:
    page = browser.new_page()
    page.goto("https://example.com")
    print(page.title())

如果你原来有一套Playwright脚本，通常不用大改就能跑。

不过我得说清楚，它不是「万能绕过器」，风控一直在进化。个人Agent、研究和轻量自动化场景够用。到生产级别，速率控制和合规检查还是要自己加。

既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～

您必须 登录 才能发表评论！

您必须登录才能发表评论！