Paddle Lite移动端推理框架深度解析,包括OpLite、OpParam、Kernel、MIR、TypeSystem、KernelContext等核心模块设计,以及硬件后端扩展方法和优化策略。
Read more »

Transformer架构深度解析,包括Encoder和Decoder结构设计、Multi-Head Attention机制、Position-Wise Feed-Forward Network,以及完整的TensorFlow实现代码示例。
Read more »

CUDA编译技术详解,包括nvcc编译器参数配置、虚拟架构和真实架构的区别、PTX和CUBIN文件生成,以及多架构兼容性编译策略。
Read more »

CUDA编程模型详解,包括线程、块、网格的层次结构,warp概念,内存模型(寄存器、共享内存、全局内存等),以及CUDA流编程技术,涵盖内存分配、流创建、同步等核心概念。
Read more »

CUDA memory hierarchy explained, including register file, L1 cache, shared memory, constant cache, L2 cache, global memory, local memory, texture and constant memory characteristics and usage.
Read more »

CUDA流编程技术,包括流的创建、同步、销毁等基本操作,以及流优先级设置、非阻塞流使用等高级特性,帮助实现GPU并行计算优化。
Read more »

CUTLASS convolution implementation explained, including convolution parameter definitions (K, C, R, S), Conv2dProblemSize configuration, output size calculation formulas, and CUTLASS library applications in convolution operations.
Read more »

GEMM矩阵乘法优化技术详解,包括基础概念、向量内积和外积优化方法、双缓冲技术等核心优化策略,帮助提升GPU上矩阵运算性能。
Read more »

In-depth analysis of CUTLASS GEMM implementation, including MmaPolicy and MmaBase template class design, shared memory management, tensor references, warp-level GEMM operations, and other core code structures and implementation details.
Read more »
0%