论文阅读:Towards Efficient SpMV on Sunway Manycore Architectures
论文阅读:Towards Efficient SpMV on Sunway Manycore Architectures
文章链接:
文章总结
dual-side multi-level partitioning technique
三层分块:Block->Tile->Slice
其中在Tile这一层会有空Tile块,不需要计算
其中Slice这一层也会有空Slice切片,不需要计算
最底层Slice切片是我们的计算核心
多级队列:负载均衡—>The work sharing mechanism in the block and slice queuesguarantee the workload balance across fleets and cores.
映射细节:
计算核心处理逻辑
一行8个核心:7个计算核心,1个I/O核心
计算核心负责SPMV计算
I/O核心负责将结果写回内存
多个slice组合—>batch,方便DMA,并进行数据预取(单位batch),注意计算核心slice依然没有改变
利用向量寄存器,巧妙搭载msg
I/O核心的处理逻辑
整个block计算完才写回,避免反复访存
向量计算器meg->reduce
利用神威RMA
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!