Wie teile ich Gewichte zwischen Modulen in Pytorch? - Programmiererforum

Wie teile ich Gewichte zwischen Modulen in Pytorch? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Wie teile ich Gewichte zwischen Modulen in Pytorch?

Report
Quote

Post by Guest » 03 Jan 2025, 08:36

Was ist der richtige Weg, Gewichte zwischen zwei Schichten (Modulen) in Pytorch zu teilen?

Basierend auf meinen Erkenntnissen im Pytorch-Diskussionsforum gibt es dafür mehrere Möglichkeiten.

Als Beispiel, basierend auf dieser Diskussion, dachte ich, dass es reichen würde, einfach die transponierten Gewichtungen zuzuweisen. Das macht:

Code: Select all

 self.decoder[0].weight = self.encoder[0].weight.t()

Dies erwies sich jedoch als falsch und verursachte einen Fehler.
Ich habe dann versucht, die obige Zeile in einen nn.Parameter() einzuschließen:

Code: Select all

self.decoder[0].weight = nn.Parameter(self.encoder[0].weight.t())

Dadurch wird der Fehler behoben, allerdings findet hier auch keine Freigabe statt. Dadurch habe ich gerade einen neuen Tensor mit den gleichen Werten wie der Encoder[0].weight.t() initialisiert.
Ich habe dann gefunden Dieser Link bietet verschiedene Möglichkeiten zum Teilen von Gewichten. Allerdings bin ich skeptisch, ob alle dort angegebenen Methoden tatsächlich korrekt sind.

Eine Möglichkeit wird beispielsweise so demonstriert:

Code: Select all

# tied autoencoder using off the shelf nn modules
class TiedAutoEncoderOffTheShelf(nn.Module):
def __init__(self, inp, out, weight):
super().__init__()
self.encoder = nn.Linear(inp, out, bias=False)
self.decoder = nn.Linear(out, inp, bias=False)

# tie the weights
self.encoder.weight.data = weight.clone()
self.decoder.weight.data = self.encoder.weight.data.transpose(0,1)

def forward(self, input):
encoded_feats = self.encoder(input)
reconstructed_output = self.decoder(encoded_feats)
return encoded_feats, reconstructed_output

Im Grunde erstellt es einen neuen Gewichtungstensor mit nn.Parameter() und weist ihn jeder Ebene/jedem Modul wie folgt zu:

Code: Select all

weights = nn.Parameter(torch.randn_like(self.encoder[0].weight))
self.encoder[0].weight.data = weights.clone()
self.decoder[0].weight.data = self.encoder[0].weight.data.transpose(0, 1)

Das verwirrt mich wirklich. Wie kommt es, dass diese beiden Ebenen dieselbe Variable gemeinsam nutzen?
Klont es nicht nur die „Rohdaten“?

Als ich diesen Ansatz verwendete und die Gewichte visualisierte, bemerkte ich, dass die Visualisierungen anders waren und das machte mich noch sicherer, dass etwas nicht stimmte.

Ich bin mir nicht sicher wenn die unterschiedlichen Visualisierungen nur darauf zurückzuführen wären, dass eine davon transponiert wurde die andere, oder wie ich gerade schon vermutet habe, werden sie unabhängig voneinander optimiert (d. h. die Gewichte werden nicht zwischen den Schichten geteilt)
Beispiel für die Gewichtsinitialisierung:

1735889780

Guest

Was ist der richtige Weg, Gewichte zwischen zwei Schichten (Modulen) in Pytorch zu teilen?

Basierend auf meinen Erkenntnissen im Pytorch-Diskussionsforum gibt es dafür mehrere Möglichkeiten.

Als Beispiel, basierend auf dieser Diskussion, dachte ich, dass es reichen würde, einfach die transponierten Gewichtungen zuzuweisen. Das macht:
[code] self.decoder[0].weight = self.encoder[0].weight.t()
[/code]
Dies erwies sich jedoch als falsch und verursachte einen Fehler.
Ich habe dann versucht, die obige Zeile in einen nn.Parameter() einzuschließen:
[code]self.decoder[0].weight = nn.Parameter(self.encoder[0].weight.t())
[/code]
Dadurch wird der Fehler behoben, allerdings findet hier auch keine Freigabe statt. Dadurch habe ich gerade einen [b]neuen[/b] Tensor mit den gleichen Werten wie der Encoder[0].weight.t() initialisiert.
Ich habe dann gefunden Dieser Link bietet verschiedene Möglichkeiten zum Teilen von Gewichten. Allerdings bin ich skeptisch, ob alle dort angegebenen Methoden tatsächlich korrekt sind.

Eine Möglichkeit wird beispielsweise so demonstriert:
[code]# tied autoencoder using off the shelf nn modules
class TiedAutoEncoderOffTheShelf(nn.Module):
def __init__(self, inp, out, weight):
super().__init__()
self.encoder = nn.Linear(inp, out, bias=False)
self.decoder = nn.Linear(out, inp, bias=False)

# tie the weights
self.encoder.weight.data = weight.clone()
self.decoder.weight.data = self.encoder.weight.data.transpose(0,1)

def forward(self, input):
encoded_feats = self.encoder(input)
reconstructed_output = self.decoder(encoded_feats)
return encoded_feats, reconstructed_output
[/code]
Im Grunde erstellt es einen neuen Gewichtungstensor mit nn.Parameter() und weist ihn jeder Ebene/jedem Modul wie folgt zu:
[code]weights = nn.Parameter(torch.randn_like(self.encoder[0].weight))
self.encoder[0].weight.data = weights.clone()
self.decoder[0].weight.data = self.encoder[0].weight.data.transpose(0, 1)
[/code]
Das verwirrt mich wirklich. Wie kommt es, dass diese beiden Ebenen dieselbe Variable gemeinsam nutzen?
Klont es nicht nur die „Rohdaten“?

Als ich diesen Ansatz verwendete und die Gewichte visualisierte, bemerkte ich, dass die Visualisierungen anders waren und das machte mich noch sicherer, dass etwas nicht stimmte.

Ich bin mir nicht sicher wenn die unterschiedlichen Visualisierungen nur darauf zurückzuführen wären, dass eine davon transponiert wurde die andere, oder wie ich gerade schon vermutet habe, werden sie unabhängig voneinander optimiert (d. h. die Gewichte werden nicht zwischen den Schichten geteilt)
Beispiel für die Gewichtsinitialisierung:
[img]https://i.sstatic.net/o0n0X.jpg[/img]
[img]https://i.sstatic.net/ h9lve.png[/img]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie teile ich eine OBJ -Datei mit Blender 2.90 in drei Teile auf

Last post by Guest « 12 Feb 2025, 07:29
Posted in Python

by Guest » 12 Feb 2025, 07:29 » in Python

Ich habe ein Objekt, das ich in 3 Segmente teilen und speichern möchte in einzelne OBJ -Dateien. Das Objekt wird in der Mitte und in der X-Y-Ebene platziert. Ich möchte sie entlang der Y-Achse...

0 Replies

39 Views

Last post by Guest
12 Feb 2025, 07:29
Wie ist die Beziehung zwischen Intel -Erweiterung für Pytorch und Pytorch XPU -Versionen?

Last post by Anonymous « 18 Aug 2025, 12:57
Posted in Python

by Anonymous » 18 Aug 2025, 12:57 » in Python

Vor einiger Zeit habe ich ein Deep -Learning -Modell auf einem Computer ohne Nvidia -GPU, aber mit einer Intel -GPU, trainiert. Ich benutzte die CPU nur zum Training, was schmerzhaft langsam war. Mir...

0 Replies

8 Views

Last post by Anonymous
18 Aug 2025, 12:57
Warum liefert meine Berechnung der Finite-Differenzen-Gewichte für Taylor-Reihen falsche Ergebnisse?

Last post by Guest « 18 Jan 2025, 21:44
Posted in Python

by Guest » 18 Jan 2025, 21:44 » in Python

Ich versuche, die Gewichte für eine Finite-Differenzen-Approximation der ersten Ableitung f′(x)f'(x)f′(x) mithilfe der Taylor-Reihenentwicklung zu berechnen. Ich suche nach den Gewichten a,b,c,d,ea,...

0 Replies

12 Views

Last post by Guest
18 Jan 2025, 21:44
Vergleich der Gewichte und Verzerrungen mehrerer verschiedener YOLOV8S -Modelle, die durch Transferlernen trainiert wurd

Last post by Guest « 22 Feb 2025, 13:28
Posted in Python

by Guest » 22 Feb 2025, 13:28 » in Python

Ich habe 3 verschiedene YOLOV8S -Modelle, die ich beurteilen möchte:

yolov8s mit dem normalen Modell geschult.Train () Befehl

yolo8vs Modell, das mit einem gefrorenen Rückgrat trainiert ist...

0 Replies

16 Views

Last post by Guest
22 Feb 2025, 13:28
Die rohe Dezimalzahl meiner Gewichte kann nicht in der Lage sein, irgendwo automatisch abzurunden?

Last post by Anonymous « 25 Feb 2025, 22:03
Posted in Python

by Anonymous » 25 Feb 2025, 22:03 » in Python

Ich mache eine einzelne Wahrnehmung, in der ich mein Modell vorhersagen muss, ob der Benutzer ein T oder ein L mit einigen Schaltflächen auf einer Website herstellt. RN Ich versuche, die Gewichte und...

0 Replies

22 Views

Last post by Anonymous
25 Feb 2025, 22:03

Return to “Python”