您现在的位置是：首页 > 其他

当前栏目

EIE稀疏矩阵乘法硬件模拟

模拟硬件矩阵乘法稀疏

2023-09-14 09:16:18 时间

#include<iostream>
#include<cstdlib>
#include<ctime>
#include <iomanip>
using namespace std;
typedef int dtype;

typedef struct CSC{
    int a;              //存储非零元素个数
    int n;              //存储列数
    dtype* v;           //存储非零值
    int* x;           //存储每一列中非零值与上一个非零值之间0的个数
    int* p;           //存储每一列之前非零元素的个数
}csc_t;

void gen_sparse_matrix(int n,dtype** & mat,double s){
    mat=new int*[n];
    for(int i=0;i<n;i++)
        mat[i]=new int[n];
    for(int i=0;i<n;i++)
        for(int j=0;j<n;j++)
    {
            int x=rand()%1000;
            if(x>1000*s)
                mat[i][j]=0;
            else
                mat[i][j]=x+1;
    }
    return;
}
void print_matrix(int n,dtype** mat){
    int i,j;
    for(i=0;i<n;i++){
        for(j=0;j<n;j++)
            cout<<setw(8)<<setfill(' ')<<mat[i][j]<<",";
        cout<<endl;
    }
}
void print_csc(csc_t* S){
    cout<<"NNZ="<<S->a<<endl;
    cout<<"Column Num is "<<S->n<<endl;
    cout<<"value of non-zero element\n";
    for(int i=0;i<S->a;i++)
        cout<<S->v[i]<<",";
    cout<<endl;
    cout<<"rowindex of value\n";
    for(int i=0;i<S->a;i++)
        cout<<S->x[i]<<",";
    cout<<endl;
    cout<<"column pointer\n";
    for(int i=0;i<S->n+1;i++)
        cout<<S->p[i]<<",";
    cout<<endl;
    return;
}
void storage_matrix(int N_PE,int n,dtype** mat,csc_t* & S){
    S=new csc_t[N_PE];
    for(int i=0;i<N_PE;i++){
        //为每个PE存储相应的值，包括矩阵中的i,i+N_PE,i+2N_PE,...等行。
        int cnt=0;
        int row=i;
        while(row<n){
            for(int j=0;j<n;j++)
                if(mat[row][j]!=0)
                    cnt++;
            row+=N_PE;
        }
        S[i].a=cnt;
        S[i].n=n;
        S[i].v=new dtype[cnt];
        S[i].x=new int[cnt];
        S[i].p=new int[n+1];
        int k=0; //记录当前已经访问的非零元素个数
        int l=0; //记录当前已经访问的列的个数
        for(int j=0;j<n;j++){
            S[i].p[l++]=k;
            for(int r=i;r<n;r+=N_PE)
                if(mat[r][j]!=0){
                    S[i].v[k]=mat[r][j];
                    S[i].x[k]=r;
                    k++;
            }
        }
        S[i].p[l]=S[i].a;
    }
    return;
}
void print_PE(int n,dtype** mat,int i,int N_PE){
    for(int r=i;r<n;r+=N_PE){
        for(int j=0;j<n;j++)
            cout<<setw(8)<<setfill(' ')<<mat[r][j]<<",";
        cout<<endl;
    }
    return;
}
void spmv(int N_PE,csc_t* S,dtype* in,dtype* out){
    int n=S[0].n;
    for(int i=0;i<n;i++)
        out[i]=0;
    for(int j=0;j<n;j++)
    {
        if(in[j]!=0)
        {
            for(int i=0;i<N_PE;i++)
            {
                //寻找第j列的非零元素,即v[p[j]:p[j+1]],行号分别是x[p[j]:p[j+1]]
                for(int k=S[i].p[j];k<S[i].p[j+1];k++)
                    out[S[i].x[k]]+=S[i].v[k]*in[j];
            }
        }
    }
    return;
}
void gpmv(int n,dtype** mat,dtype* in,dtype* out){
    for(int i=0;i<n;i++)
    {
        out[i]=0;
        for(int j=0;j<n;j++)
            out[i]+=mat[i][j]*in[j];
    }
    return;
}
int main(){
    int n;
    int N_PE;
    double s;
    cout<<"input n:";
    cin>>n;
    cout<<"input s:";
    cin>>s;
    cout<<"input N_PE:";
    cin>>N_PE;
    dtype** M=NULL;
    csc_t* S=NULL;
    gen_sparse_matrix(n,M,s);
    print_matrix(n,M);
    storage_matrix(N_PE,n,M,S);
    for(int i=0;i<N_PE;i++){
        cout<<"*************************************"<<endl<<"N_PE="<<i<<endl;
        print_PE(n,M,i,N_PE);
        print_csc(&S[i]);
    }
    //定义一个输入向量和输出向量
    dtype* in=new dtype[n];
    dtype* out1=new dtype[n];
    dtype* out2=new dtype[n];
    for(int i=0;i<n;i++){
        in[i]=rand()%10-5;
        out1[i]=0;
        out2[i]=0;
    }
    //普通矩阵向量乘法
    gpmv(n,M,in,out1);
    spmv(N_PE,S,in,out2);
    for(int i=0;i<n;i++)
        cout<<out1[i]<<"    ,    "<<out2[i]<<endl;
    return 0;
}

该代码是对论文EIE: Efficient Inference Engine on Compressed Deep Neural Network所述的初步模拟，还有待完善。该算法使用CSC存储稀疏矩阵，并采用多个PE单元进行并行计算，具体的方法为：
读入一个激活向量，从该向量中扫描，若扫描到非零元素，则将其值和列号j同时送入所有PE单元，PE单元则查找自己存储的属于第j列的非零元素，即 $v [p [j] : p [j + 1]]$ ，其行号则为 $x [p [j], p [j + 1]]$ ，当然论文中采用的是相对索引存储方式，行号的获取略有差异，然后将这些非零元素和激活进行相乘，将结果累加在对应行的累加器上，在上述代码中表现为
$out[x[k]]+=in[j]*v[k]\,\,\,\,\,\,\,\,k=p[j],p[j]+1,...,p[j+1]-1.$
需要注意的是，第 $i$ 个 $P E$ 存储的是第 $i,i+N\_PE,i+2*N\_PE,...$ 等行的权重。

猜你喜欢

vcruntime140_1.dll无法继续执行代码怎么办？
倍福TwinCAT(贝福Beckhoff)常见问题(FAQ)-人机界面快速入门 TC3
Halcon 彩色图片通道分割处理
支付系统整体设计：整体架构设计以及注意要点（二）
ORMBase对象/关系型数据库映射在MVC中的应用
iOS开发那些事-iOS常用设计模式–委托模式案例实现
设计模式总结
视频压缩编码和音频压缩编码的基本原理
OpenRisc-67-OR的汇编
MarkDown添加图片的三种方式
L1-039 古风排版(圣诞快乐~）
买保险，不上当
Android平台下OpenGL图形编程
MAC 最全快捷键
Atitit.java的浏览器插件技术 Applet japplet attilax总结
Android中解决图像解码导致的OOM问题
.NetCore中EFCore的使用整理（二）-关联表查询
Online Object Tracking: A Benchmark 论文笔记（转）
[转]HDFS Metadata Directories Explained - An overview of files and configurations under the HDFS meta-directory
golang beego快速入门示例（单文件hello.go）

相关主题

828. 模拟栈
CSP-S2022模拟赛3 10.16
3370. 牛年（模拟）
NOIP模拟赛8
NOIP模拟2
noip模拟赛运
noip模拟赛算
noip模拟赛楼

zl程序教程

当前栏目

EIE稀疏矩阵乘法硬件模拟

相关文章