Yuning AI
首页产品技术博客关于我们
ZHEN
技术博客

关于模型结构、推理系统与 Agent 执行层的持续记录。

通过中英双语内容,持续整理 Transformer、GPU 推理、Harness 与其他关键工程主题。

模型原理

Transformer 架构的原理

从 self-attention、token 信息混合与可扩展性三个角度,解释 Transformer 为什么成为现代语言模型的基础架构。

2026年4月22日7 分钟
TransformerAttentionLLM 基础
架构研究

关于该架构更深入的研究

从 scaling、位置编码、效率优化与长上下文问题出发,讨论 Transformer 在研究与工程中是如何被不断改造的。

2026年4月21日8 分钟
Scaling位置编码架构研究
推理基础设施

NVIDIA H100 的结构,推理为什么需要 LPX

从计算单元、显存层级、数据流和低精度执行路径出发,理解 H100 为什么适合大模型推理,以及推理为何离不开 LPX 这类能力。

2026年4月20日8 分钟
NVIDIA H100推理LPX
Agent 工程

关于 Harness 的研究

为什么 Agent 系统需要 Harness 层:它负责执行控制、工具隔离、可观测性与失败恢复,是模型推理与工程系统之间的关键桥梁。

2026年4月19日7 分钟
HarnessAgentsRuntime
Yuning AI

一家聚焦应用落地的 AI 工程公司,提供模型接口、Agent 系统与产业级软件实现。

首页产品技术博客关于我们
京ICP备2026030115号-1京公网安备11010802048803号