 

布兰姥爷

文章：47 阅读：176791 评论：120 赞：1453

 好友  私信个人主页

文章 47
原创 42
阅读 176791
评论 120
赞 1453

原创【零基础】深层神经网络解析

 2019-9-28 08:45  2167 26 3 分类: 机器人/ AI 文集: AI

回顾：

　　【零基础】AI神经元解析（含实例代码）

　　【零基础】浅层神经网络解析

一、序言

　　前面我们已经完成了单神经元、浅层神经网络（2层）的解析，其中有很多没有讲透的地方我们就暂时不要理会了，比如反向传播的原理我也没看明白呢。这里我们继续下一步，解析深层的神经网络（N层），也就是真的要“深度学习”了。

　　注：本文内容主要是对“床长”的系列教程进行总结，强烈推荐“床长”的人工智能系列教程（https://www.captainbed.net/）

二、深层神经网络的构成

　　我们再回顾一下前面做的工作，一个典型的神经元构成如下：

　　1）传播函数，由输入x、偏置w、阈值b计算出a

　　2）激活函数，将a映射到0~1之间的结果y，可理解为（是、否）的概率

　　3）反向传播函数，通过y、label计算出dw、db（用以更新w和b）

　　4）损失函数，计算y与label间的误差

　　在浅层神经网络中，其实主要也是实现了这四个函数，区别只是在输入与输出间多了一层计算。以反向传播函数为例：

　　单神经元反向传播函数：

　　具有两层的浅层神经网络：

　　可以看到整体形式上并没有太大差别，而对于神经元层数更多的深层神经网络，其实大体上也是一样，只是我们需要用一个“循环”来处理一下可自定义的网络层数。

　　对于深层神经网络，我们在构建模型时不限制其网络层数、神经元个数，只是在使用时根据需要写上网络结构即可。下面依然是直接上代码，文末附完整代码文件下载。

　　这里我们依旧是处理前面“浅层神经网络”的问题“从图片中识别出偶数和奇数“。

三、随机初始化参数

#初始化所有层的w和b
def initialize_parameters(layer_dims):
　　np.random.seed(1)
　　wGroup = {}
　　bGroup = {}
　　layer = len(layer_dims)#神经网络总共有几层
　　#逐层初始化w、b
　　for i in range(1,layer): #i的值是1 2 3 到layer-1 的标号是从0开始的，其中layer_dims[0]是输入层
　　　　wGroup[str(i)] = np.random.randn(layer_dims,layer_dims[i-1])/np.sqrt(layer_dims[i-1])
　　　　bGroup[str(i)] = np.zeros((layer_dims,1))
　　return wGroup,bGroup

　　layer_dims包含了每层神经元个数，如[10,5,4,1]表示是一个三层的网络，第一层5个神经元、第二层4个神经元、第三层1个神经元。注意输入层是不算一层的，但是输入层的个数又直接影响了第一层w的初始化。

　　返回值wGroup,bGroup包含了每一层初始化后的w和b

四、传播函数

#传播函数
def forward(img, wGroup, bGroup):
　　#神经网络的实际层数与参数的层数一致
　　layer = len(wGroup)
　　#除第一层神经网络的输入是img，其他层的输入都是上一层的输出
　　#除最后一层的激活函数是sigmoid，其他层的激活函数都是relu
　　caches = []
　　Y = []
　　#前L-1层使用relu作为激活函数，最后一层使用sigmoid做激活函数
　　for i in range(1,layer+1):
　　　　if i == 1:
　　　　　　IN = img
　　　　else:
　　　　　　IN = Y#IN 就是Y_prev
　　　　　　w = wGroup[str(i)]
　　　　　　b = bGroup[str(i)]
　　　　　　A = np.dot(w, IN) + b
　　　　　　#将变量数据保存起来便于后面反向计算
　　　　　　caches.append((IN,w,b,A))
　　　　　　#下一层的输入使用激活函数转化一下
　　　　　　if i != layer:
　　　　　　　　Y = relu(A)
　　　　　　else:
　　　　　　　　Y = sigmoid(A)

　　return Y, caches

　　这里，除第一层的输入是img之外，后面都是用激活函数转化后的Y值作为输入。其中最后一层使用sigmoid作为激活函数，其他层使用relu函数（又换了个激活函数）。

　　这里的IN其实就是上一层的Y，caches里存储了IN：上一层的Y（其实就是本层的输入，第一层是img）、w：本层的权重、b：本层的偏置、A：激活前的乘积。将这些数据保存起来后面计算反向传播时用。最后还返回了最终的Y，其实就是神经网络最后的输出值。

五、反向传播函数

#反向传播
def backward(YLast,label,caches):
　　layer = len(caches)
　　label = label.reshape(YLast.shape)
　　dWGroup = {}
　　dbGroup = {}

　　Y = YLast
　　(Y_prev, W, b, A) = caches[-1]#取最后一个值
　　m = Y_prev.shape[1]

　　#直接计算最后一层dY
　　dY = - (np.divide(label, Y) - np.divide(1 - label, 1 - Y+0.000001))#这里加上一个0.000001是为了防止1-Y=0
　　#最后一层dA dW db
　　dA = sigmoid_backward(dY, A)
　　dW = np.dot(dA, Y_prev.T) / m
　　db = np.sum(dA, axis=1, keepdims=True) / m
　　dWGroup[str(layer)] = dW
　　dbGroup[str(layer)] = db
　　#上一层的dY
　　dY_prev = np.dot(W.T, dA)
　　for c in reversed(range(1,layer)):#若layer=4则C =3 2 1
　　　　dY = dY_prev
　　　　(Y_prev, W, b, A) = caches[c-1]#c-1 = 2 1 0，这里不好理解的是c是从1开始的，而caches是从0开始的
　　　　m = Y_prev.shape[1]

　　　　dA = relu_backward(dY, A)
　　　　dW = np.dot(dA, Y_prev.T) / m
　　　　db = np.sum(dA, axis=1, keepdims=True) / m
　　　　#上一层的dA
　　　　dY_prev = np.dot(W.T, dA)
　　　　dWGroup[str(c)] = dW
　　　　dbGroup[str(c)] = db
　　return dWGroup,dbGroup

　　这里的反向传播其实本质上跟浅层神经网络差不多，只是我们将最后一层的反向传播单独拿出来计算（因为激活函数不同），而且又涉及到历史参数获取（之前直接作为参数传）只是看起来复杂。你可以自己尝试结合前面浅层网络做一个指定层数（比如3层）的代码编写，只有动起手来才好理解。下面是我自己写的一段帮助理解的伪代码。另外需要注意的是，这里计算dA时分别针对relu和sigmoid函数是不一样的，所以分别有relu_backward和sigmoid_backward函数。

六、梯度下降（更新w、b）

#更新w、b参数
def update(wGroup, bGroup, dWGroup, dbGroup, learning_rate):
　　L = len(wGroup)
　　for i in range(1,L+1): #1-3
　　　　wGroup[str(i)] = wGroup[str(i)] - learning_rate * dWGroup[str(i)]
　　　　bGroup[str(i)] = bGroup[str(i)] - learning_rate * dbGroup[str(i)]

　　return wGroup,bGroup

七、损失函数

#损失函数
def costCAL(Y, label):
　　m = label.shape[1]
　　cost = np.multiply(label,np.log(Y))+np.multiply(1-label, np.log(1-Y+0.000001))#这里加个很小的数是为了防止1-Y=0的情况
　　cost = -np.sum(cost)/m
　　cost = np.squeeze(cost)
　　return cost

八、预测函数

#预测函数
def predict(img,wGroup,bGroup):
　　m = img.shape[1]
　　L = len(wGroup)
　　p = np.zeros((1,m))
　　#向前传播做预测
　　probas,caches = forward(img, wGroup, bGroup)
　　# 将预测结果转化成0和1的形式，即大于0.5的就是1，否则就是0
　　for i in range(0, probas.shape[1]):
　　　　if probas[0,i] > 0.5:
　　　　p[0,i] = 1
　　else:
　　　　p[0,i] = 0
　　return p

九、训练模型并预测

#组成训练model
def model(img, label, layers_dims, learning_rate=0.0075, num_iterations=3000, print_cost=False):
　　np.random.seed(1)
　　costs = []
　　wGroup,bGroup = initialize_parameters(layers_dims)
　　#训练若干次数
　　for i in range(0, num_iterations):
　　　　#向前传播
　　　　Y,caches = forward(img, wGroup, bGroup)
　　　　# 计算成本
　　　　cost = costCAL(Y, label)
　　　　# 进行反向传播
　　　　dWGroup,dbGroup = backward(Y,label,caches)
　　　　# 更新参数，好用这些参数进行下一轮的前向传播
　　　　wGroup,bGroup = update(wGroup, bGroup, dWGroup, dbGroup, learning_rate)

　　　　# 打印出成本
　　　　if i % 100 == 0:
　　　　　　if print_cost and i > 0:
　　　　　　　　print ("训练%i次后成本是: %f" % (i, cost))
　　return wGroup,bGroup

#训练并预测

layers_dims = [784, 20, 7, 5, 1]
wGroup,bGroup = model(train_img, train_label, layers_dims,learning_rate=0.1, num_iterations=2000, print_cost=True)

# 对训练数据集进行预测
pred_train = predict(train_img,wGroup,bGroup)
print("预测准确率是: " + str(np.sum((pred_train == train_label) / train_img.shape[1])))

# 对测试数据集进行预测
pred_test = predict(test_img,wGroup,bGroup)
print("预测准确率是: " + str(np.sum((pred_test == test_label) / test_img.shape[1])))

运行最后结果：

十、总结回顾

　　预测准确率较之前浅层神经网络又有了大幅的提升（之前是94%）。

　　其实从浅层神经网络开始，大部分都只是贴上代码了，有点”只可意会不可言传“的感觉，其实整体框架一直都没变，所以也不知道有啥可说的。后面我会继续花时间搞明白传播函数、反向传播函数的具体原理，到时再写深度解析的文章。

　　关注公众号“零基础爱学习”回复"AI6"可获得完整代码。后面我们还会继续更新“传播函数、反向传播函数的具体含义”，以及各种激活函数的区别。

深度学习 AI 深层神经网络

作者：布兰姥爷，来源：面包板社区

链接： https://mbb.eet-china.com/blog/uid-me-3887969.html

版权声明：本文为博主原创，未经本人允许，禁止转载！

写原创有奖励！2025面包板原创奖励正在进行中

最新发表 推荐阅读 明星博主 原创博文 年度排行 博文排行博文评论 FPGA/CPLD MCU/ 嵌入式模拟电源/新能源测试测量通信智能手机处理器与DSP PCB 汽车电子消费电子智能硬件物联网软件与OS 采购与分销供应链管理工程师职场 EDA/ IP/ 设计与制造无人机机器人/ AI 医疗电子工业电子管理


 写博文

 点赞（26）

 收藏

分享到： 
 

上一篇：【零基础】浅层神经网络解析

下一篇：【零基础】理解神经网络中传播函数的内在含义

PARTNER CONTENT

换一换> 更多>

文章评论（1条评论）
登录后参与讨论

您需要登录后才可以评论登录 | 立即注册

curton 2019-9-28 20:44

学习了

回复

查看更多评论

相关推荐阅读

布兰姥爷 2023-04-21 23:07

跟姥爷深度学习4 从数学计算看神经网络

一、前言我们前面简单的做了一个气温预测，经过反复调试，效果还不错。实际上在这个方向上我们还可以更进一步优化，但因为我们是学习嘛，主要还是看广度而不是深度。考虑到后面要开始学习卷积网络，我们必须把更基础...

布兰姥爷 2023-04-21 23:04

跟姥爷深度学习3 神经网络的调试实操

一、前言前面我们做了一次天气预测的模型，训练的结果都还好，网络好歹是“拟合”了，但预测数据不合预期让我一直耿耿于怀。所以我又花了很长时间来研究为什么，我的理论依据明明没有问题（今日平均温度与近一周平均...

布兰姥爷 2023-04-21 23:02

跟姥爷深度学习2 TensorFlow的基本用法

一、前言前面我们浅用TensorFlow做了个天气预测，虽然效果不咋样，但算是将整个流程跑通了。这一篇我们在之前基础上对TensorFlow的一些参数进行简单介绍，在接口文件的基础上了解各参数的简单含...

布兰姥爷 2023-04-11 22:22

跟姥爷深度学习1，浅用tensorflow做个天气预测

一、前言最近人工智能、深度学习又火了，我感觉还是有必要研究一下。三年前浅学了一下原理没深入研究框架，三年后感觉各种框架都成熟了，现成的教程也丰富了，所以我继续边学边写。原教程链接：https://ww...

布兰姥爷 2023-03-29 12:41

AI为啥要用显卡

一、前言GPT的发布让AI再次热了起来，与上次阿尔法狗不同的是，现在人人都可以跟聊上几句，给它出出难题，还能调戏下。同期英伟达发布了针对AI领域的全新GPU H100，有的童鞋会疑惑，这个英伟达不是做...

布兰姥爷 2019-11-04 21:09

【零基础】使用Tensorflow实现神经网络

一、序言　　前面已经逐步从单神经元慢慢“爬”到了神经网络并把常见的优化都逐个解析了，再往前走就是一些实际应用问题，所以在开始实际应用之前还得把“框架”翻出来，因为后面要做的工作需要我们将精力集中在业务...

布兰姥爷

文章：47 阅读：176791 评论：120 赞：1453

 好友  私信个人主页

文章 47

原创 42

阅读 176791

评论 120

赞 1453

个人文集

C语言 (1)

电子电路 (5)

手工 (1)

点阵剪影 (4)

无人机 (4)

CISCO (1)

感悟 (1)

评测 (2)

单片机 (3)

AI (21)

区块链 (1)

爬虫 (2)

linux (1)

最新评论更多

如今，天天在网上，真正是落网了

自做自受 ... 评论博文 2025-7-2

【创客】创新-个人4G上网路

分析很细，原理图，芯片原理图，产品设计，产品结构，大师之作

琳评论博文 2025-7-2

【拆解】+Trimmer 毛球修剪拆解

很多年没有看书了，更别说大部头的书了。自然想到了这是不是对“读书无用论”有了新的理解和意识？网上一查，还真是！百度搜 ...

自做自受 ... 评论博文 2025-7-1

电子书，个人所见不同

最新博文

PanDao中离轴非球面表面参数设置 ...

如何在PanDao中定义非圆形圆周透镜？ ...

VirtualLab Fusion中导入自由曲面数据 ...

资料下载

本周热帖

[完结15章]AI 智能体从入门到高级（CO ...

初级无刷电机设计学习资料 ...

无刷电机资料大全（基本原理+接线方法 ...

无刷电机原理图大全

【伺服驱动器用户手册、电熔胶调试指 ...

一文搞懂UVA、UVB、UVC、UVD的区别与 ...

从开关速度看MOSFET在高频应用中的性 ...

《电感应用分析精粹：从磁能管理到开 ...

基于SiC的熔丝保护高压电气系统 ...

元器件选型的基本要求

最新资讯

芯语最新

掌握MEMS传感器三大核心优势 ...

看好AI市场机遇，三星考虑重启P5半导 ...

MRAM和ReRAM关注汽车级机遇

哪吒汽车继续“自救”，公开招募意向 ...

SEMI预测：2030年半导体行业将面临100 ...

显示驱动芯片独角兽云英谷递表港交所 ...

驰万电子（艾睿旗下），传解散注销！ ...

台湾半导体业薪资水平曝光 ...

Aigtek：电压放大器在介电电泳细胞分 ...

行业首发！TCL华星发布显示领域首款强 ...

EE直播间
更多

全面搞懂介电常数那些事儿直播时间： 07月03日 10:00

在线研讨会
更多

利用先进精密仪器仪表解决方案，优化研发并加快产品上市

AI 巨型芯片，性能越强，测试越难，如何破局？

Mercury基于展频技术的医疗时钟EMI抑制方案

ST 在大功率热管理系统中的电机控制系统方案（AI 数据中心/暖通空调/电池储能系统/变频制冷）

热门推荐

自动驾驶的未来在何处？
汽车ADAS的半导体技术突破
从ADAS到全自动驾驶演进
从PC到车用，一“芯”多用的电源方案

我要评论

 1

 26



 分享到微信

 分享到微博

 分享到QQ

 点击右上角，分享到朋友圈我知道啦

请使用浏览器分享功能我知道啦

关闭站长推荐 /5

E币兑换「你的愿望清单，我们来买单！」

为了把E币兑换变成更懂你们的“小确幸”，我们决定开启「社区心愿兑换」计划！想要什么告诉我们，我们给您买

2025第1期拆解活动：赢示波器、运动相机、热像仪等！

示波器、影石运动全景相机、大疆无人机、高清红外热成像仪；树莓派5等等

【下载】电源设计工程师指南（共542页）

本书共542页，深受设计工程师欢迎，作为硅基与第三代半导体的实用工具书，本手册将成为专业技术人员实现优化功率和小信号开关、电源转换和管理的必备指南。

【2025面包板社区内容狂欢节】发帖/回帖赢25万E币！

活动时间：即日起——2025年全年（发完20万E币为止！）

社区内容发布、审核与管理！

严厉打击刷流量发广告等行为

原创 【零基础】深层神经网络解析

文章评论（1条评论）

curton 2019-9-28 20:44

原创【零基础】深层神经网络解析