欢迎访问我的网站,希望内容对您有用,关注公众号后台领取免费AI学习资料。
用 Llama-70B 跑一个 128K token 的长上下文请求,光是 KV Cache 就要占 429 GB 显存。
KV Cache 大小 = 2 × num_layers × num_heads × head_dim × seq_len × dtype_bytes
那么Llama-3.1-70B,FP16,seq_len = 128K token
= 2 × 80 × 8 × 128 × 131072 ×……继续阅读 »
迷途小书童
4小时前 22浏览 0评论
0个赞