Tech QwQ-32B 部署显存怎么估算：从 KV Cache 到 GPU 低精度计算

以 QwQ-32B 部署为例，从权重显存和 KV Cache 公式算起，理解长上下文并发、存储精度、计算精度、GPU 原生低精度支持和 Blackwell FP4 的真实意义。

2026/06/14 tech, ai

AI AI Coding CLI 为什么全面倒向 TypeScript

从 kimi-cli 重构看 AI Agent CLI 赛道为何集体选择 TypeScript + Bun，Python 的短板在哪里

2026/06/13 ai

AI GraphRAG vs LightRAG：从传统 RAG 的痛点到图增强检索的选型权衡

传统 RAG 在多跳推理、全局归纳、语义断裂上力不从心，GraphRAG 用知识图谱+社区摘要解决但代价高昂，LightRAG 用双层检索+去社区化实现 99% 降本——两者适用场景和选型策略的完整梳理。

2026/06/13 ai

AI RAG 的工程深度：切分、检索、排序、评估与幻觉防护

RAG 不只是给大模型挂个知识库——文档切分策略、Embedding 演进、向量数据库选型、多路召回与 RRF 融合、Re-rank 精排、RAG 效果量化评估、幻觉成因与分层防护，从朴素 RAG 到工程落地的完整知识体系。

2026/06/13 ai

Tech 从 KV Cache 到 Prefix Caching：LLM 推理为什么能复用前缀

接着 KV Cache、Prefill 和 Decode，继续理解 PagedAttention 与 Prefix Caching：它们分别解决显存利用率和跨请求前缀复用问题，以及为什么生成阶段通常不能直接复用别人的 KV。

2026/06/13 tech, ai

Tech 从 Prefill 到 Decode：用两层 Transformer 走完一次 LLM 推理

以一个两层 Transformer 的例子完整拆解 LLM 推理中的 prefill 和 decode：每层如何计算 Q/K/V，KV Cache 存什么，为什么 prefill 是并行的，decode 为什么只算当前 token。

2026/06/13 tech, ai

Tech 如何安全地把 GitHub Token 告诉 AI

让 AI 帮你调 GitHub API 时，Token 很容易不小心出现在对话记录里。关键不是 AI 能不能拿到 Token，而是 Token 有没有出现在对话文本里。

2026/06/13 tech, tools

Open chirpy

my issue my PR #2754 #2754 用 chirpy 写博客时发现 Mermaid 图的节点 label 右侧会被裁掉几个像素。最初以为是 CSS 问题，陆续加了 overflow: visible、word-break、white-space 等规则"治标"，但症状总是换个方式回来。排查后发现根本原因是字体加载时序：loadMermaid() 在 ...

2026/06/13

Tech Softmax：把分数变成概率分布

从直觉、公式、数值例子、Sigmoid 对比和温度参数理解 Softmax：它如何把任意实数分数转换为概率分布。

2026/06/13 tech, ai

Tutorial 调试 Jekyll 博客的 Mermaid 渲染：从“文字被裁”到自动对比度的完整排查

一次完整的前端排查实录：用无头 Chromium 搭建截图验证闭环，从 Mermaid 文字被裁一路追到 webfont 时序、对比度、fonts.ready 假性 resolve、渲染早于容器创建、中文字符越界；最后停下来质疑这一路的补丁，用一行字体配置从根上消除“测宽字体≠绘制字体”，把两百行自愈逻辑删回一百行。

2026/06/13 tutorial, debugging

Tech QwQ-32B 部署显存怎么估算：从 KV Cache 到 GPU 低精度计算

AI AI Coding CLI 为什么全面倒向 TypeScript

AI GraphRAG vs LightRAG：从传统 RAG 的痛点到图增强检索的选型权衡

AI RAG 的工程深度：切分、检索、排序、评估与幻觉防护

Tech 从 KV Cache 到 Prefix Caching：LLM 推理为什么能复用前缀

Tech 从 Prefill 到 Decode：用两层 Transformer 走完一次 LLM 推理

Tech 如何安全地把 GitHub Token 告诉 AI

Open chirpy

Tech Softmax：把分数变成概率分布

Tutorial 调试 Jekyll 博客的 Mermaid 渲染：从“文字被裁”到自动对比度的完整排查

热门标签