设为首页收藏本站在线充值

中原工学院论坛

 找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 443|回复: 3

[游戏] 超详细案例解读,利用FPGA加速深度神经网络运算

[复制链接]

294

主题

294

帖子

786

积分

中级会员

Rank: 9Rank: 9Rank: 9Rank: 9Rank: 9

积分
786
发表于 2020-4-3 15:03:35 | 显示全部楼层 |阅读模式
  全联接神经网络是一种计算量比较大的机器学习模型,在训练和推断过程中需要对所有神经元进行矩阵计算。为了加快计算速度,各公司的大佬们采取了不同手段进行数据的抽象和综合。

  通常来说,我们采用卷积操作,将数据进行抽象和综合,然后送入到全连接神经网络进行最后的计算,实质上就是矩阵运算等数学计算的一系列综合操作。

  熟悉矩阵运算的朋友都知道,矩阵当中的每个元素和其他元素是没有关联的,这种特性天然就适合使用并行计算的方式来加快其计算速度。

  重点来了!并行计算正是 FPGA 等芯片的强项,利用FPGA将有效实现深度学习神经网络的加速计算(推理),下面是具体的操作展示。

  1.深度学习神经网络的环境搭建

  2.安装 OpenCL的开发环境,使Intel? Arria? 10 FPGA作为OpenCL的设备,注意安Intel对应的SDK

  3.利用 Tensorflow 作为框架,实现一个简单的全连接神经网络

  (提供一个算法描述示例,使用 Mnist 数据集作为训练和测试)

  1)Mnist 数据集每张图片为 28×28 像素,将每张图片的像素点作为输入

  2)第一个隐藏层设置 500 个神经元,与输入图像的 784 个像素点做计算(矩阵乘法)

  3)将得到的结果使用 relu 函数进行结果,只保留数值 >0 的结果,其他的设置为 0

  4)第二个隐藏层设置 10 个神经元,与第一个隐藏层的输出进行计算(矩阵乘法),最终得到 10 个结果作为输出

  从上述的算法描述当中,我们可以看到实际上就是几次矩阵的计算过程:一个 [1,784] 和 [784, 500] 的矩阵乘法,得到一个 [1,500] 的中间矩阵;然后这个 [1,500] 的中间矩阵与 [500, 10] 的矩阵进行计算,最终得到一个 [1,10] 的矩阵,这个就是我们的最终结果。

  4.对搭建完成的神经网络进行训练,训练之后得到模型文件

  5.通过一定的操作方式,提取这些模型文件中的模型参数

  6.把模型参数当作输入的参数,送入到FPGA当中进行加速计算,实现推理过程

  上述神经网络算法的OpenCL实现,大致如下:

  

  7.最后使用C/C++编写CPU程序,与 FPGA 进行交互,来验证 OpenCL 算法实现的正确性。

  以下是 CPU 程序的部分代码。

  

  通过以上步骤,我们就成功的使用OpenCL在Intel FPGA上实现了一个简单的神经网络的推理加速。

单选投票, 共有 0 人参与投票
0% (0)
0% (0)
0% (0)
您所在的用户组没有投票权限

0

主题

2

帖子

64

积分

注册会员

Rank: 6Rank: 6

积分
64
发表于 2020-4-6 15:43:32 | 显示全部楼层
谢LZ,已学习
回复

使用道具 举报

0

主题

3

帖子

6

积分

新手上路

Rank: 3Rank: 3Rank: 3

积分
6
发表于 2020-4-6 15:59:32 | 显示全部楼层
顶一下,辛苦楼主,对OpenCL不太熟,基于OpenCL的算法实现方便详细展示一下吗?
回复

使用道具 举报

0

主题

3

帖子

12

积分

新手上路

Rank: 3Rank: 3Rank: 3

积分
12
发表于 2020-4-6 18:27:17 | 显示全部楼层
回楼上,英特尔FPGA中国创新中心官网有相关的线上培训课,有讲OpenCL,可以关注一下
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|中原工学院论坛 ( 豫ICP备11003946号 ) 百度统计

GMT+8, 2020-10-1 15:59 , Processed in 0.073726 second(s), 28 queries .

© 2010-2017 中原工学院团委 | 中工灵感论坛

请将您的想法告诉我们,帮助我们改进服务 请将您的想法告诉我们,帮助我们改进服务

快速回复 返回顶部 返回列表