Tech 从 Attention 到 KV Cache:理解 Transformer 的注意力机制与推理加速
从 Q/K/V 的投影含义、多头注意力的独立 softmax,到 KV Cache 与 KV Pool 的推理加速原理,系统梳理 Transformer 注意力机制。
从 Q/K/V 的投影含义、多头注意力的独立 softmax,到 KV Cache 与 KV Pool 的推理加速原理,系统梳理 Transformer 注意力机制。
Viking SearchCLI 把企业数据的向量化入库、搜推问答策略配置和效果调优,全部封装成自然语言可驱动的 CLI 命令,让没有工程基础的人也能搭出一套智能搜索推荐系统。
当模型足够强、harness 足够完善之后,最后的瓶颈不是工具而是坐在键盘前亲自按回车的你——loop engineering 说的是,松手吧。
Playwright 和 Headless 浏览器在两个场景下各自的用法:一是作为 AI agent 的前端验收工具,靠 DOM 数值和截图建立可观测闭环;二是作为爬虫工具,应对现代网站前后端分离、JS 签名混淆等防爬手段。
以 QwQ-32B 部署为例,从权重显存和 KV Cache 公式算起,理解长上下文并发、存储精度、计算精度、GPU 原生低精度支持和 Blackwell FP4 的真实意义。
从 kimi-cli 重构看 AI Agent CLI 赛道为何集体选择 TypeScript + Bun,Python 的短板在哪里
传统 RAG 在多跳推理、全局归纳、语义断裂上力不从心,GraphRAG 用知识图谱+社区摘要解决但代价高昂,LightRAG 用双层检索+去社区化实现 99% 降本——两者适用场景和选型策略的完整梳理。
RAG 不只是给大模型挂个知识库——文档切分策略、Embedding 演进、向量数据库选型、多路召回与 RRF 融合、Re-rank 精排、RAG 效果量化评估、幻觉成因与分层防护,从朴素 RAG 到工程落地的完整知识体系。
接着 KV Cache、Prefill 和 Decode,继续理解 PagedAttention 与 Prefix Caching:它们分别解决显存利用率和跨请求前缀复用问题,以及为什么生成阶段通常不能直接复用别人的 KV。
以一个两层 Transformer 的例子完整拆解 LLM 推理中的 prefill 和 decode:每层如何计算 Q/K/V,KV Cache 存什么,为什么 prefill 是并行的,decode 为什么只算当前 token。