paper lists Posted on 2025-11-04 深度学习相关论文列表,涵盖推理优化、分布式训练、通信压缩、量化技术等领域的重要论文,包括PipeDream、梯度压缩、量化算法等核心技术。 Read more »
performance optimization Posted on 2025-11-04 性能优化技术总结,涵盖CPU和GPU的理论峰值计算性能、内存带宽计算方法,以及深度学习模型优化策略,包括算子优化、图优化、算子融合等技术。 Read more »
torch compile Posted on 2025-11-04 PyTorch 2.0 torch.compile编译优化技术详解,包括TorchDynamo、AOT Autograd、PrimTorch和TorchInductor组件,以及torch.compile API的使用方法和代码解析。 Read more »
Welcome to Quartz 4 Posted on 2025-11-04 Quartz 4静态站点生成器介绍,支持Markdown转网站、Obsidian兼容、全文搜索、图谱视图、wikilinks、LaTeX、语法高亮等功能,提供快速页面加载和热重载开发体验。 Read more »
PTX and SASS Posted on 2025-11-04 CUDA PTX ISA and SASS assembly language learning resources, including PTX instruction set architecture documentation, compiler APIs, inline assembly guides, dynamic loading techniques, and other GPU low-level programming materials. Read more »
tensor core Posted on 2025-11-04 NVIDIA Tensor Core技术详解,包括第一代、第二代、第三代Tensor Core的架构特点、计算能力和性能指标,以及在不同GPU架构中的实现差异。 Read more »
milr Posted on 2025-11-04 MLIR编译器基础设施介绍,包括Dialect设计(类型、属性、操作、接口)、Dialect转换、代码转换、变换、翻译和Pass优化等编译器技术。 Read more »