Yuning AI · Yuning AI

技术博客

关于模型结构、推理系统与 Agent 执行层的持续记录。

通过中英双语内容，持续整理 Transformer、GPU 推理、Harness 与其他关键工程主题。

Transformer 架构的原理

从 self-attention、token 信息混合与可扩展性三个角度，解释 Transformer 为什么成为现代语言模型的基础架构。

2026年4月22日7 分钟

TransformerAttentionLLM 基础

关于该架构更深入的研究

从 scaling、位置编码、效率优化与长上下文问题出发，讨论 Transformer 在研究与工程中是如何被不断改造的。

2026年4月21日8 分钟

Scaling位置编码架构研究

推理基础设施

NVIDIA H100 的结构，推理为什么需要 LPX

从计算单元、显存层级、数据流和低精度执行路径出发，理解 H100 为什么适合大模型推理，以及推理为何离不开 LPX 这类能力。

2026年4月20日8 分钟

NVIDIA H100推理LPX

关于 Harness 的研究

为什么 Agent 系统需要 Harness 层：它负责执行控制、工具隔离、可观测性与失败恢复，是模型推理与工程系统之间的关键桥梁。

2026年4月19日7 分钟

HarnessAgentsRuntime