torch compile Posted on 2026-04-17 PyTorch 2.0 torch.compile编译优化技术详解,包括TorchDynamo、AOT Autograd、PrimTorch和TorchInductor组件,以及torch.compile API的使用方法和代码解析。 Read more »
design pattern Posted on 2026-04-17 UML设计模式基础概念详解,包括依赖、泛化、实现、关联、聚合、组合等关系的定义、表示方法和C++代码示例,帮助理解面向对象设计原则。 Read more »
milr Posted on 2026-04-17 MLIR编译器基础设施介绍,包括Dialect设计(类型、属性、操作、接口)、Dialect转换、代码转换、变换、翻译和Pass优化等编译器技术。 Read more »
profile Posted on 2026-04-17 性能分析工具使用指南,包括PyTorch Profiler和NVIDIA Nsight等工具的使用方法,帮助开发者进行代码性能分析和优化。 Read more »
大模型训练优化 Posted on 2026-04-17 大模型训练优化技术全面解析,包括Megatron框架、计算优化(OP融合、混合精度、通信融合)、显存优化(重计算、Offload)、并行优化(数据并行、模型并行、流水线并行)等核心技术。 Read more »
paddle lite Posted on 2026-04-17 Paddle Lite移动端推理框架深度解析,包括OpLite、OpParam、Kernel、MIR、TypeSystem、KernelContext等核心模块设计,以及硬件后端扩展方法和优化策略。 Read more »
Welcome to Quartz 4 Posted on 2026-04-17 Quartz 4静态站点生成器介绍,支持Markdown转网站、Obsidian兼容、全文搜索、图谱视图、wikilinks、LaTeX、语法高亮等功能,提供快速页面加载和热重载开发体验。 Read more »
flash attention Posted on 2026-04-17 Flash Attention technology explained, including parallelization strategies, work partition optimization, supported head dimensions, and Flash Attention2's fused kernels, matrix tiling, causal masking, and other core optimization techniques. Read more »