BLAS（Basic Linear Algebra Subprograms）-基础线性代数子程序库

how-to-optimize-gemm项目地址：flame/how-to-optimize-gemm (github.com) Computing four elements of C at a timeHiding computation in a subroutine - Amicoyuan (xingyuanjie.top) Computing four elements at

2023-05-22

Greyson Chance 2023 Beijing

Greyson Chance 2023 Beijing总结记得最早开始听，应该是在初中，从最初的No Fear到后来的最爱的Seasons。他19年来中国我是完全不知道，都是大学开班会，同学看到我头像加了我，我才知道，这次也是在她朋友圈看到了消息，哈哈哈哈，respect！这次终于赶上了！哈哈哈哈哈哈，这次认识了好多新朋友，大家都好nice，白玫瑰小队下次又见！我甚至连之前一直在B站看的Seas

2023-07-30

重启Life分类-Seasons

重启Life分类-Seasons在听完GC北京场后，感触颇深，再次启动Life分类还是有必要哈哈哈！今天写这篇博客好像也脱了很久。【上次因为糟糕的排版删除了23年的厦门篇，Sorry，后期会补上】同时恭喜队伍成功进入CPC2023决赛，这波是青岛见了，哈哈哈！手动撒花！我发现有些瞬间还是必须照片或者文字记下来，不然后面真的会忘记。立个FLAG今年在Life分类更新完23年的旅行以及这次的

2023-07-28

SUMMA：Scalable Universal Matrix Multiplication Algorithm[未更新]

论文阅读：SUMMA：Scalable Universal Matrix Multiplication Algorithm论文链接SUMMA: Scalable Universal Matrix Multiplication Algorithm | Guide books (acm.org) 文章总结

2023-07-15

blas gemm SUMMA

论文阅读：Towards Efficient SpMV on Sunway Manycore Architectures

论文阅读：Towards Efficient SpMV on Sunway Manycore Architectures文章链接：Towards Efficient SpMV on Sunway Manycore Architectures | Proceedings of the 2018 International Conference on Supercomputing (acm.org)

2023-07-11

论文阅读：稀疏矩阵向量乘法在申威众核架构上的性能优化

稀疏矩阵向量乘法在申威众核架构上的性能优化文章链接：稀疏矩阵向量乘法在申威众核架构上的性能优化 - 中国知网 (cnki.net) 文章总结固定划分方法所有计算完再写回子矩阵(任务)->子矩阵小块(核心计算) 将子矩阵小块中的非零元存储在一起，以适应申威处理器上的DMA操作。(Packing) 核心：寄存器通信->RMA 根据LDM大小提前计算，充分利用LDM空间，换句话说就是保证

2023-07-03

论文阅读：面向国产申威 26010 众核处理器的 SpMV 实现与优化

面向国产申威 26010 众核处理器的 SpMV 实现与优化文章链接：面向国产申威26010众核处理器的SpMV实现与优化 - 中国知网 (cnki.net) 文章总结存储格式：CSR 数据名称定义： col:非零元的列号 data:非零元数值，连续存放 row_off:x数组，每行第一个元素前面的非零元素，最后一个rowoff代表总的非零元素 vec:计算向量 y:结果向量 rows:行号 s

2023-06-09

Packing into contiguous memory

Packing into contiguous memory 首先，我们打包A块，这样我们就可以连续地穿过它(march through it)。 Optimization_4x4_12 · flame/how-to-optimize-gemm Wiki (github.com) Optimization_4x4_13 · flame/how-to-optimize-gemm

2023-06-07

Blocking to maintain performance

Blocking to maintain performance 为了保持较小问题规模的性能，我们分块矩阵C(以及相应的A和B): Optimization_4x4_11 · flame/how-to-optimize-gemm Wiki (github.com) 现在，性能得到了保持: Optimization_4x4_11我们注意到，对于迄今为止的所有优化，当涉及的矩阵比L2缓

2023-06-07

Further optimizing

Further optimizing现在我们开始以不同的方式优化1x4的情况。我们在寄存器中存储一行k × 4矩阵B https://github.com/flame/how-to-optimize-gemm/wiki/Optimization_4x4_8 请注意，我们现在使用的常规寄存器比物理上可用的寄存器多得多…… 我们重新安排计算，以便一次计算两行4x4的C块。 Optimizati

2023-06-07