Tech QwQ-32B 部署显存怎么估算:从 KV Cache 到 GPU 低精度计算
以 QwQ-32B 部署为例,从权重显存和 KV Cache 公式算起,理解长上下文并发、存储精度、计算精度、GPU 原生低精度支持和 Blackwell FP4 的真实意义。
以 QwQ-32B 部署为例,从权重显存和 KV Cache 公式算起,理解长上下文并发、存储精度、计算精度、GPU 原生低精度支持和 Blackwell FP4 的真实意义。
从 kimi-cli 重构看 AI Agent CLI 赛道为何集体选择 TypeScript + Bun,Python 的短板在哪里
传统 RAG 在多跳推理、全局归纳、语义断裂上力不从心,GraphRAG 用知识图谱+社区摘要解决但代价高昂,LightRAG 用双层检索+去社区化实现 99% 降本——两者适用场景和选型策略的完整梳理。
RAG 不只是给大模型挂个知识库——文档切分策略、Embedding 演进、向量数据库选型、多路召回与 RRF 融合、Re-rank 精排、RAG 效果量化评估、幻觉成因与分层防护,从朴素 RAG 到工程落地的完整知识体系。
接着 KV Cache、Prefill 和 Decode,继续理解 PagedAttention 与 Prefix Caching:它们分别解决显存利用率和跨请求前缀复用问题,以及为什么生成阶段通常不能直接复用别人的 KV。
以一个两层 Transformer 的例子完整拆解 LLM 推理中的 prefill 和 decode:每层如何计算 Q/K/V,KV Cache 存什么,为什么 prefill 是并行的,decode 为什么只算当前 token。
让 AI 帮你调 GitHub API 时,Token 很容易不小心出现在对话记录里。关键不是 AI 能不能拿到 Token,而是 Token 有没有出现在对话文本里。
my issue my PR #2754 #2754 用 chirpy 写博客时发现 Mermaid 图的节点 label 右侧会被裁掉几个像素。最初以为是 CSS 问题,陆续加了 overflow: visible、word-break、white-space 等规则"治标",但症状总是换个方式回来。 排查后发现根本原因是字体加载时序:loadMermaid() 在 ...
从直觉、公式、数值例子、Sigmoid 对比和温度参数理解 Softmax:它如何把任意实数分数转换为概率分布。
一次完整的前端排查实录:用无头 Chromium 搭建截图验证闭环,从 Mermaid 文字被裁一路追到 webfont 时序、对比度、fonts.ready 假性 resolve、渲染早于容器创建、中文字符越界;最后停下来质疑这一路的补丁,用一行字体配置从根上消除“测宽字体≠绘制字体”,把两百行自愈逻辑删回一百行。