GRU模型 - 博客

[{"createTime":1735734952000,"id":1,"img":"bandupan_350_218.jpg","link":"https://pan.baidu.com/s/1T03izdWtRSeMqOXoT9HCug?pwd=draw","name":"百度网盘下载","status":9,"txt":"百度网盘下载","type":1,"updateTime":1735747411000,"userId":3},{"createTime":1736173885000,"id":2,"img":"txy_480_300.png","link":"https://cloud.tencent.com/act/cps/redirect?redirect=1077&cps_key=edb15096bfff75effaaa8c8bb66138bd&from=console","name":"腾讯云秒杀","status":9,"txt":"腾讯云限量秒杀","type":1,"updateTime":1736173885000,"userId":3},{"createTime":1736177492000,"id":3,"img":"aly_251_140.png","link":"https://www.aliyun.com/minisite/goods?userCode=pwp8kmv3","memo":"","name":"阿里云","status":9,"txt":"阿里云2折起","type":1,"updateTime":1736177492000,"userId":3},{"createTime":1735660800000,"id":4,"img":"vultr_560_300.png","link":"https://www.vultr.com/?ref=9603742-8H","name":"Vultr","status":9,"txt":"Vultr送$100","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":5,"img":"jdy_663_320.jpg","link":"https://3.cn/2ay1-e5t","name":"京东云","status":9,"txt":"京东云特惠专区","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":6,"img":"qk_443_300.png","link":"https://pan.quark.cn/s/6229b93c70d0","name":"夸克网盘","status":9,"txt":"夸克网盘","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":7,"img":"yun_910_50.png","link":"https://activity.huaweicloud.com/discount_area_v5/index.html?fromacct=261f35b6-af54-4511-a2ca-910fa15905d1&utm_source=aXhpYW95YW5nOA===&utm_medium=cps&utm_campaign=201905","name":"底部","status":9,"txt":"高性能云服务器2折起","type":2,"updateTime":1735660800000,"userId":3}]

<>GRU模型

GRU(Gated Recurrent
Unit),也称门控循环单元结构，它是传统RNN的变体，同LSTM一样能够有效捕捉长序列之间的语义关联，环节梯度消失和梯度爆炸现象，同时它的结构和计算机要比LSTM更简单，他的核心结构可以分为两个部分解析：

* 更新门
* 重置门
<>GRU的内部结构图和计算公式

<>内部结构分析

和之前分析过的LSTM中的门]控-
-样,首先计算更新门]和重置门的门]值分别是z(的和r(t),计算方法就是使用X(t)与h(t-1)拼接进行线性变换,再经过sigmoid激活.之后更新门门值作用在了h(t-1)上，代表控制上一时间步传来的信息有多少可以被利用.接着就是使用这个更新后的h(t-
1)进行基本的RNN计算,即与x(t)拼接进行线性变化,经过tanh激活,得到新的h(t)。最后重置门的门值会作用在新的h(t)，而1-门值会作用在h(t-1)上,
随后将两者的结果相加，得到最终的隐含状态输出h(t),这个过程意味着重置门有能力重置之前所有的计算,当门值趋于1时,输出就是新的h(),而当门值趋于0时，输出就是上一时间步的h(t-1)。

Bi-GRU与Bi-LSTM的逻辑相同,都是不改变其内部结构,而是将模型应用两次且方向不同，再将两次得到的LSTM结果进行拼接作为最终输出。具体参见上小节中的Bi-LSTM。

<>code

<>Pytorch中GRU工具的使用:

●位置:在torch.nn工具包之中,通过torch.nn.GRU可调用.

<>nn.GRU类初始化主要参数解释

●input size: 输入张量x中特征维度的大小
●hidden size: 隐层张量h中特征维度的大小
●num. _layers:隐含层的数量
●bidirectional:是否选择使用双向LSTM,如果为True,则使用;默认不使用
●nn.GRU类实例化对象主要参数解释:
●input: 输入张量x
●h0: 初始化的隐层张量h
import torch import torch.nn as nn #实例化GRU对象 #第一个参数: input_size(输入张量x的维度)
#第二个参数: hidden_size( 隐藏层的维度，隐藏层神经元数量) #第三个参数: num_layers (隐藏层的层数) gru = nn.GRU(5
,6,2) #设定输入的张量x #第一个参数: sequence_length( 输入序列的长度) #第二个参数: batch_size(批次的样本数)
#第三个参数: input_size(输入张量x的维度) input = torch. randn(1,3,5) #初始化隐藏层的张量h0
#第一个参数：num_layers*num_direction(隐藏层层数*方向数) #第二个参数：batch_size(批次样本个数)
#第三个参数：hidden_size(隐藏层的维度) h0 = torch. randn(2,3,6) #将input，h0放入GRU中，得到输出张量结果
output,hn = gru(input,h0) output ''' tensor([[[ 0.2434, -0.1658, -0.2573,
0.4601, 0.4427, 0.1731], [-0.0840, 0.0435, -0.0394, 0.2295, -0.5860, -0.6337],
[-0.4222, -0.6013, -0.7849, -0.8197, -0.7507, 0.7607]]],
grad_fn=<StackBackward0>)''' output.shape #torch.Size([1, 3, 6]) hn
'''tensor([[[ 0.0074, -0.6283, 0.2433, 0.1006, 0.8167, -0.2925], [ 0.1320,
-0.3379, 1.0510, 0.7130, -0.3881, -0.6786], [-0.1086, -0.2509, 0.4275, 0.5853,
-0.4212, -0.3319]], [[ 0.2434, -0.1658, -0.2573, 0.4601, 0.4427, 0.1731],
[-0.0840, 0.0435, -0.0394, 0.2295, -0.5860, -0.6337], [-0.4222, -0.6013,
-0.7849, -0.8197, -0.7507, 0.7607]]], grad_fn=<StackBackward0>)''' hn.shape
#torch.Size([2, 3, 6])
<>GRU的优势

●GRU和LSTM作用相同,在捕捉长序列语义关联时,能有效抑制梯度消失或爆炸,效果都优于传统RNN且计算复杂度相比STM要小。

<>GRU的缺点

●GRU仍然不能完全解决梯度消失问题,同时其作用RNN的变体,有着RNN结构本身的一大弊端,即不可并行计算,这在数据量和模型体量逐步增大的未来,是RNN发展的关键瓶颈。

技术

Java1212 篇
Python927 篇
开发语言608 篇
c语言463 篇
算法461 篇
MySQL438 篇
数据库394 篇
前端387 篇
更多...