【动手学深度学习】pytorch-参数管理 - 博客

[{"createTime":1735734952000,"id":1,"img":"bandupan_350_218.jpg","link":"https://pan.baidu.com/s/1T03izdWtRSeMqOXoT9HCug?pwd=draw","name":"百度网盘下载","status":9,"txt":"百度网盘下载","type":1,"updateTime":1735747411000,"userId":3},{"createTime":1736173885000,"id":2,"img":"txy_480_300.png","link":"https://cloud.tencent.com/act/cps/redirect?redirect=1077&cps_key=edb15096bfff75effaaa8c8bb66138bd&from=console","name":"腾讯云秒杀","status":9,"txt":"腾讯云限量秒杀","type":1,"updateTime":1736173885000,"userId":3},{"createTime":1736177492000,"id":3,"img":"aly_251_140.png","link":"https://www.aliyun.com/minisite/goods?userCode=pwp8kmv3","memo":"","name":"阿里云","status":9,"txt":"阿里云2折起","type":1,"updateTime":1736177492000,"userId":3},{"createTime":1735660800000,"id":4,"img":"vultr_560_300.png","link":"https://www.vultr.com/?ref=9603742-8H","name":"Vultr","status":9,"txt":"Vultr送$100","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":5,"img":"jdy_663_320.jpg","link":"https://3.cn/2ay1-e5t","name":"京东云","status":9,"txt":"京东云特惠专区","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":6,"img":"qk_443_300.png","link":"https://pan.quark.cn/s/6229b93c70d0","name":"夸克网盘","status":9,"txt":"夸克网盘","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":7,"img":"yun_910_50.png","link":"https://activity.huaweicloud.com/discount_area_v5/index.html?fromacct=261f35b6-af54-4511-a2ca-910fa15905d1&utm_source=aXhpYW95YW5nOA===&utm_medium=cps&utm_campaign=201905","name":"底部","status":9,"txt":"高性能云服务器2折起","type":2,"updateTime":1735660800000,"userId":3}]

<>pytorch-参数管理

<>概述

我们的目标是找到使损失函数最小化的模型参数值。经过训练后，我们将需要使用这些参数来做出未来的预测。
此外，有时我们希望提取参数，以便在其他环境中复用它们，将模型保存下来，以便它可以在其他软件中执行，或者为了获得科学的理解而进行检查。
# 创建一个单隐藏层的MLP import torch from torch import nn net = nn.Sequential(nn.Linear(
4,8),nn.ReLU(),nn.Linear(8,1)) X = torch.rand(size = (2,4)) net(X)
<>参数访问
# 参数访问全连接层包含两个参数分别是该层的权重和偏置两者都为存储单精度浮点数 print(net[2].state_dict())

print(type(net[2].bias)) print(net[2].bias) print(net[2].bias.data)

# 一次性访问所有参数 print(*[(name,param.shape) for name,param in net[0].
named_parameters()]) print(*[(name,param.shape) for name,param in net.
named_parameters()])

<>嵌套块收集参数
def block1(): return nn.Sequential(nn.Linear(4,8),nn.ReLU(), nn.Linear(8,4),nn.
ReLU()) def block2(): net = nn.Sequential() for i in range(4): net.add_module(
f'block{i}',block1()) return net # 块和层之间进行组合 rgnet = nn.Sequential(block2(),nn.
Linear(4,1)) rgnet(X)

访问第一个主要的块中第二个子块的第一层的偏置

<>参数初始化

pytorch根据一个范围均匀初始化权重和偏置矩阵这个范围是根据输入和输出维度计算得到，Pytorch.init模块提供了多种预置初始化方法。

<>内置初始化

下面的代码将所有的权重参数初始化为标准差为0.01的高斯随机变量并且将偏置参数设置为0
def init_normal(m): if type(m) == nn.Linear: nn.init.normal_(m.weight,mean = 0,
std= 0.01) nn.init.zeros_(m.bias) net.apply(init_normal) net[0].weight.data[0],
net[0].bias.data[0]
可以将所有的参数初始化为1
def init_constant(m): if type(m) == nn.Linear: nn.init.constant_(m.weight,1) nn
.init.zeros_(m.bias) net.apply(init_constant) net[0].weight.data[0],net[0].bias.
data[0]
针对不同的块进行初始化
def init_xavier(m): if type(m) == nn.Linear: nn.init.xavier_uniform_(m.weight)
def init_42(m): if type(m) == nn.Linear: nn.init.constant_(m.weight,42) net[0].
apply(init_xavier) net[2].apply(init_42) print(net[0].weight.data[0]) print(net[
2].weight.data)
<>自定义初始化
def my_init(m): if type(m) == nn.Linear: print("Init", *[(name, param.shape)
for name, param in m.named_parameters()][0]) nn.init.uniform_(m.weight, -10, 10)
m.weight.data *= m.weight.data.abs() >= 5 net.apply(my_init) net[0].weight[:2]
<>参数共享

第三层和第四层共享一个参数
shared = nn.Linear(8,8) net = nn.Sequential(nn.Linear(4,8),nn.ReLU(), shared,nn
.ReLU(), shared,nn.ReLU(), nn.Linear(8,1)) net(X) print(net[2].weight.data[0] ==
net[4].weight.data[0])

技术

Java1212 篇
Python927 篇
开发语言608 篇
c语言463 篇
算法461 篇
MySQL438 篇
数据库394 篇
前端387 篇
更多...