技术博客
关于模型结构、推理系统与 Agent 执行层的持续记录。
通过中英双语内容,持续整理 Transformer、GPU 推理、Harness 与其他关键工程主题。
模型原理
Transformer 架构的原理
从 self-attention、token 信息混合与可扩展性三个角度,解释 Transformer 为什么成为现代语言模型的基础架构。
2026年4月22日7 分钟
TransformerAttentionLLM 基础
架构研究
关于该架构更深入的研究
从 scaling、位置编码、效率优化与长上下文问题出发,讨论 Transformer 在研究与工程中是如何被不断改造的。
2026年4月21日8 分钟
Scaling位置编码架构研究
推理基础设施
NVIDIA H100 的结构,推理为什么需要 LPX
从计算单元、显存层级、数据流和低精度执行路径出发,理解 H100 为什么适合大模型推理,以及推理为何离不开 LPX 这类能力。
2026年4月20日8 分钟
NVIDIA H100推理LPX
Agent 工程
关于 Harness 的研究
为什么 Agent 系统需要 Harness 层:它负责执行控制、工具隔离、可观测性与失败恢复,是模型推理与工程系统之间的关键桥梁。
2026年4月19日7 分钟
HarnessAgentsRuntime