BLAS(Basic Linear Algebra Subprograms)-基础线性代数子程序库how-to-optimize-gemm项目地址:flame/how-to-optimize-gemm (github.com) Computing four elements of C at a timeHiding computation in a subroutine - Amicoyuan (xingyuanjie.top) Computing four elements at 2023-05-22 HPC blas gemm gemv
Greyson Chance 2023 BeijingGreyson Chance 2023 Beijing总结记得最早开始听,应该是在初中,从最初的No Fear到后来的最爱的Seasons。他19年来中国我是完全不知道,都是大学开班会,同学看到我头像加了我,我才知道,这次也是在她朋友圈看到了消息,哈哈哈哈,respect!这次终于赶上了! 哈哈哈哈哈哈,这次认识了好多新朋友,大家都好nice,白玫瑰小队下次又见!我甚至连之前一直在B站看的Seas 2023-07-30 LIFE Music
重启Life分类-Seasons重启Life分类-Seasons在听完GC北京场后,感触颇深,再次启动Life分类还是有必要哈哈哈! 今天写这篇博客好像也脱了很久。 【上次因为糟糕的排版删除了23年的厦门篇,Sorry,后期会补上】 同时恭喜队伍成功进入CPC2023决赛,这波是青岛见了,哈哈哈!手动撒花! 我发现有些瞬间还是必须照片或者文字记下来,不然后面真的会忘记。 立个FLAG今年在Life分类更新完23年的旅行以及这次的 2023-07-28 LIFE Seasons
SUMMA:Scalable Universal Matrix Multiplication Algorithm[未更新]论文阅读:SUMMA:Scalable Universal Matrix Multiplication Algorithm论文链接SUMMA: Scalable Universal Matrix Multiplication Algorithm | Guide books (acm.org) 文章总结 2023-07-15 HPC blas gemm SUMMA
论文阅读:Towards Efficient SpMV on Sunway Manycore Architectures论文阅读:Towards Efficient SpMV on Sunway Manycore Architectures文章链接:Towards Efficient SpMV on Sunway Manycore Architectures | Proceedings of the 2018 International Conference on Supercomputing (acm.org) 2023-07-11 HPC blas spmv
论文阅读:稀疏矩阵向量乘法在申威众核架构上的性能优化稀疏矩阵向量乘法在申威众核架构上的性能优化文章链接:稀疏矩阵向量乘法在申威众核架构上的性能优化 - 中国知网 (cnki.net) 文章总结固定划分方法 所有计算完再写回 子矩阵(任务)->子矩阵小块(核心计算) 将子矩阵小块中的非零元存储在一起,以适应申威处理器上的DMA操作。(Packing) 核心:寄存器通信->RMA 根据LDM大小提前计算,充分利用LDM空间,换句话说就是保证 2023-07-03 HPC blas spmv
论文阅读:面向国产申威 26010 众核处理器的 SpMV 实现与优化面向国产申威 26010 众核处理器的 SpMV 实现与优化文章链接:面向国产申威26010众核处理器的SpMV实现与优化 - 中国知网 (cnki.net) 文章总结存储格式:CSR 数据名称定义: col:非零元的列号 data:非零元数值,连续存放 row_off:x数组,每行第一个元素前面的非零元素,最后一个rowoff代表总的非零元素 vec:计算向量 y:结果向量 rows:行号 s 2023-06-09 HPC blas spmv
Packing into contiguous memoryPacking into contiguous memory 首先,我们打包A块,这样我们就可以连续地穿过它(march through it)。 Optimization_4x4_12 · flame/how-to-optimize-gemm Wiki (github.com) Optimization_4x4_13 · flame/how-to-optimize-gemm 2023-06-07 HPC blas gemm gemv
Blocking to maintain performanceBlocking to maintain performance 为了保持较小问题规模的性能,我们分块矩阵C(以及相应的A和B): Optimization_4x4_11 · flame/how-to-optimize-gemm Wiki (github.com) 现在,性能得到了保持: Optimization_4x4_11我们注意到,对于迄今为止的所有优化,当涉及的矩阵比L2缓 2023-06-07 HPC blas gemm gemv
Further optimizingFurther optimizing现在我们开始以不同的方式优化1x4的情况。 我们在寄存器中存储一行k × 4矩阵B https://github.com/flame/how-to-optimize-gemm/wiki/Optimization_4x4_8 请注意,我们现在使用的常规寄存器比物理上可用的寄存器多得多…… 我们重新安排计算,以便一次计算两行4x4的C块。 Optimizati 2023-06-07 HPC blas gemm gemv