Tech Transformer 推理系列（一）：从 Attention 到 KV Cache

从 Q/K/V 的投影含义、多头注意力的独立 softmax，到 GQA/MQA、Decoding KV Cache 与输出稳定性，系统梳理 Transformer 注意力机制。

2026/06/12 tech, ai

Tech 从 8B 到 8GB：LLM 参数量与权重空间的心算法

分清 Billion、Giga、Byte 三套记号，并用一条公式快速估算不同精度 LLM 的纯权重空间。

2026/07/31 tech, ai

AI Agent 与 AI 搜索服务：能力边界与评测方法

区分 Agent 的任务规划能力与搜索服务的检索能力，梳理二者如何协作交付证据，并比较 SimpleQA、FreshQA、BrowseComp-ZH 与 XBench-DeepSearch 的评测边界。

2026/07/30 ai

Tech 从输入表示到文本生成：Transformer 三类架构与多模态 Token

沿着信息进入模型、形成上下文表示并生成输出的路径，理解 Encoder-Only、Decoder-Only 与 Encoder-Decoder 的结构差异、适用场景，以及视觉 Token 如何把图像接入语言模型。

2026/07/27 tech, ai

AI Multica 自托管：它是什么，如何部署与运行

介绍 Multica 的用途和自托管架构，说明 --with-server 安装脚本的工作流程，并记录 macOS 上的实际部署与运行方式。

2026/07/24 ai, tools

AI 本地大模型推理入门：推理引擎生态、GGUF 量化与镜像加速下载

以一块 16GB 显卡为例，梳理本地跑大模型的完整拼图：llama.cpp / vLLM / SGLang 推理引擎的分工，GGUF 格式与量化等级的取舍，以及国内用 hf-mirror + aria2 高速下载模型的实战方法。

2026/07/24 ai, tools

Life 树莓派安装 Codex CLI：网络探测、npm 镜像加速与代理配置实录

在树莓派 5（aarch64、Debian 12）上安装 OpenAI Codex CLI 的完整实录：先探测各关键域名在直连与代理下的可达性，再用 npmmirror 镜像绕开 GitHub Release 的慢速下载，最后处理 fish shell 的代理包装与 headless 环境下的设备授权登录。

2026/07/24 life, raspberry-pi, proxy