大语言模型量化技术综述,包括SmoothQuant、AWQ、LLM.int8、GPTQ、ZeroQuant、LUT-GEMM、SparseGPT等先进量化方法,以及weight-only量化在推理优化中的应用。
Read more »

深度学习归一化方法详解,包括Batch Norm、Layer Norm、Instance Norm、Group Norm四种归一化技术的原理、实现方法和PyTorch代码示例,帮助理解不同归一化策略的应用场景。
Read more »

NVIDIA GPU sparse computing technology overview, including efficient GPU kernel implementations for N:M sparse weights, Apex N:M sparse support, structured sparsity optimization on Tensor Cores, and related papers and open source project resources.
Read more »

Stable Diffusion推理优化技术详解,包括Flash Attention、Norm融合、混合Layout计算、推理显存优化等核心技术,实现512×512图像0.76秒生成,性能超越TensorRT 7.9%。
Read more »

Transformer架构深度解析,包括Encoder和Decoder结构设计、Multi-Head Attention机制、Position-Wise Feed-Forward Network,以及完整的TensorFlow实现代码示例。
Read more »

CUDA编程模型详解,包括线程、块、网格的层次结构,warp概念,内存模型(寄存器、共享内存、全局内存等),以及CUDA流编程技术,涵盖内存分配、流创建、同步等核心概念。
Read more »

CUDA编译技术详解,包括nvcc编译器参数配置、虚拟架构和真实架构的区别、PTX和CUBIN文件生成,以及多架构兼容性编译策略。
Read more »

CUDA memory hierarchy explained, including register file, L1 cache, shared memory, constant cache, L2 cache, global memory, local memory, texture and constant memory characteristics and usage.
Read more »
0%