Tech 从 Attention 到 KV Cache:理解 Transformer 的注意力机制与推理加速
从 Q/K/V 的投影含义、多头注意力的独立 softmax,到 KV Cache 与 KV Pool 的推理加速原理,系统梳理 Transformer 注意力机制。
从 Q/K/V 的投影含义、多头注意力的独立 softmax,到 KV Cache 与 KV Pool 的推理加速原理,系统梳理 Transformer 注意力机制。
从 kimi-cli 重构看 AI Agent CLI 赛道为何集体选择 TypeScript + Bun,Python 的短板在哪里
传统 RAG 在多跳推理、全局归纳、语义断裂上力不从心,GraphRAG 用知识图谱+社区摘要解决但代价高昂,LightRAG 用双层检索+去社区化实现 99% 降本——两者适用场景和选型策略的完整梳理。
接着 KV Cache、Prefill 和 Decode,继续理解 PagedAttention 与 Prefix Caching:它们分别解决显存利用率和跨请求前缀复用问题,以及为什么生成阶段通常不能直接复用别人的 KV。
以一个两层 Transformer 的例子完整拆解 LLM 推理中的 prefill 和 decode:每层如何计算 Q/K/V,KV Cache 存什么,为什么 prefill 是并行的,decode 为什么只算当前 token。
让 AI 帮你调 GitHub API 时,Token 很容易不小心出现在对话记录里。关键不是 AI 能不能拿到 Token,而是 Token 有没有出现在对话文本里。
my issue my PR #2754 #2754 用 chirpy 写博客时发现 Mermaid 图的节点 label 右侧会被裁掉几个像素。最初以为是 CSS 问题,陆续加了 overflow: visible、word-break、white-space 等规则"治标",但症状总是换个方式回来。 排查后发现根本原因是字体加载时序:loadMermaid() 在 ...
从直觉、公式、数值例子、Sigmoid 对比和温度参数理解 Softmax:它如何把任意实数分数转换为概率分布。
一次完整的前端排查实录:用无头 Chromium 搭建截图验证闭环,从 Mermaid 文字被裁一路追到 webfont 时序、对比度、fonts.ready 假性 resolve、渲染早于容器创建、中文字符越界;最后停下来质疑这一路的补丁,用一行字体配置从根上消除“测宽字体≠绘制字体”,把两百行自愈逻辑删回一百行。
一次围绕 Tmux 重启后如何恢复 session 结构的实践记录:理解边界、安装插件、配置自动保存,并明确恢复流程。