Tech 从 Attention 到 KV Cache:理解 Transformer 的注意力机制与推理加速
从 Q/K/V 的投影含义、多头注意力的独立 softmax,到 KV Cache 与 KV Pool 的推理加速原理,系统梳理 Transformer 注意力机制。
从 Q/K/V 的投影含义、多头注意力的独立 softmax,到 KV Cache 与 KV Pool 的推理加速原理,系统梳理 Transformer 注意力机制。
接着 KV Cache、Prefill 和 Decode,继续理解 PagedAttention 与 Prefix Caching:它们分别解决显存利用率和跨请求前缀复用问题,以及为什么生成阶段通常不能直接复用别人的 KV。
以一个两层 Transformer 的例子完整拆解 LLM 推理中的 prefill 和 decode:每层如何计算 Q/K/V,KV Cache 存什么,为什么 prefill 是并行的,decode 为什么只算当前 token。
让 AI 帮你调 GitHub API 时,Token 很容易不小心出现在对话记录里。关键不是 AI 能不能拿到 Token,而是 Token 有没有出现在对话文本里。
my issue my PR #2754 #2754 用 chirpy 写博客时发现 Mermaid 图的节点 label 右侧会被裁掉几个像素。最初以为是 CSS 问题,陆续加了 overflow: visible、word-break、white-space 等规则"治标",但症状总是换个方式回来。 排查后发现根本原因是字体加载时序:loadMermaid() 在 ...
从直觉、公式、数值例子、Sigmoid 对比和温度参数理解 Softmax:它如何把任意实数分数转换为概率分布。
一次完整的前端排查实录:用无头 Chromium + CDP 搭建截图验证闭环,定位 Mermaid 文字被裁的根因是 webfont 加载时序,并顺手发现暗色主题对比度、fonts.ready 挂起,以及它在冷加载下假性提前 resolve 导致首屏错位等一连串隐藏缺陷。
一次围绕 Tmux 重启后如何恢复 session 结构的实践记录:理解边界、安装插件、配置自动保存,并明确恢复流程。
一次将 README、AGENTS.md、CLAUDE.md 与项目内 skills 重新分层的实践记录。
一次由 ZeroOmega 弹窗引发的代理排查,最终发现根本不是代理配置问题,而是 GitHub 遥测服务本身从中国大陆访问返回 503。