Der Speicher steigt in der Pytorch -Trainingsschleife auch mit leere_cache ().

Der Speicher steigt in der Pytorch -Trainingsschleife auch mit leere_cache (). ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Der Speicher steigt in der Pytorch -Trainingsschleife auch mit leere_cache ().

Report
Quote

Post by Anonymous » 25 Feb 2025, 11:04

Ich habe ein Pytorch-Trainingsskript und ich erhalte einen außerem-memory-Fehler, nachdem ein paar Epochen sogar THO TOMEN nenne. Die GPU -Erinnerung steigt einfach weiter und ich kann nicht herausfinden, warum. < /P>
Hier ist im Grunde das, was ich tue:

Code: Select all

import torch
from torch.utils.data import Dataset, DataLoader
import numpy as np

class CustomDataset(Dataset):
def __init__(self, data_paths):
self.data_paths = data_paths

def __len__(self):
return len(self.data_paths)

def __getitem__(self, idx):
image = np.load(self.data_paths[idx]['image']).astype(np.float32)
label = np.load(self.data_paths[idx]['label']).astype(np.int64)

image = torch.tensor(image).cuda()
label = torch.tensor(label).cuda()

return image, label

data_paths = [{'image': f'img_{i}.npy', 'label': f'label_{i}.npy'} for i in range(10000)]
dataset = CustomDataset(data_paths)
dataloader = DataLoader(dataset, batch_size=32, num_workers=4, pin_memory=True)

for epoch in range(10):
for batch in dataloader:
images, labels = batch

output = images.mean()
loss = output.sum()
loss.backward()

del images, labels, loss, output
torch.cuda.empty_cache()

Auch nachdem alles gelöscht und leer_cache () aufgerufen wird, steigt das VRAM einfach weiter und ich verstehe nicht, warum. Dies passiert nicht auf der CPU. Wenn ich Nvidia-smi ausführe, nimmt die Speicherverwendung nach jeder Charge zu, bis sie abstürzt. Rufen Sie Del auf allem nach jeder Stapel
[*] Einstellen num_workers = 0 (nicht geholfen)
[*] Verwenden von .detach () Bevor Sie die Tensoren in GPU
[*] überprüft haben, ob das Problem in meinem Modell ist, aber auch ohne das Modell das Laden der Daten bereits den Speicher erhöht

hat jemand das schon einmal gesehen? Gibt es etwas über Dataloader und CUDA () , das dies verursachen könnte?
würde Ideen schätzen. Ich habe keine Dinge, um es zu versuchen,

1740477857

Anonymous

Ich habe ein Pytorch-Trainingsskript und ich erhalte einen außerem-memory-Fehler, nachdem ein paar Epochen sogar THO TOMEN nenne. Die GPU -Erinnerung steigt einfach weiter und ich kann nicht herausfinden, warum. < /P>
Hier ist im Grunde das, was ich tue:[code]import torch
from torch.utils.data import Dataset, DataLoader
import numpy as np

class CustomDataset(Dataset):
def __init__(self, data_paths):
self.data_paths = data_paths

def __len__(self):
return len(self.data_paths)

def __getitem__(self, idx):
image = np.load(self.data_paths[idx]['image']).astype(np.float32)
label = np.load(self.data_paths[idx]['label']).astype(np.int64)

image = torch.tensor(image).cuda()
label = torch.tensor(label).cuda()

return image, label

data_paths = [{'image': f'img_{i}.npy', 'label': f'label_{i}.npy'} for i in range(10000)]
dataset = CustomDataset(data_paths)
dataloader = DataLoader(dataset, batch_size=32, num_workers=4, pin_memory=True)

for epoch in range(10):
for batch in dataloader:
images, labels = batch

output = images.mean()
loss = output.sum()
loss.backward()

del images, labels, loss, output
torch.cuda.empty_cache()
[/code]
Auch nachdem alles gelöscht und leer_cache ()  aufgerufen wird, steigt das VRAM einfach weiter und ich verstehe nicht, warum. Dies passiert nicht auf der CPU. Wenn ich Nvidia-smi ausführe, nimmt die Speicherverwendung nach jeder Charge zu, bis sie abstürzt. Rufen Sie Del  auf allem nach jeder Stapel 
[*] Einstellen num_workers = 0  (nicht geholfen)
[*] Verwenden von .detach ()  Bevor Sie die Tensoren in GPU
[*] überprüft haben, ob das [url=viewtopic.php?t=11587]Problem[/url] in meinem Modell ist, aber auch ohne das Modell das Laden der Daten bereits den Speicher erhöht

hat jemand das schon einmal gesehen? Gibt es etwas über Dataloader und CUDA () , das dies verursachen könnte? 
würde Ideen schätzen. Ich habe keine Dinge, um es zu versuchen,

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Der Android Studio -Speicher steigt mit jedem Layoutschalter

Last post by Anonymous « 14 Apr 2025, 19:27
Posted in Java

by Anonymous » 14 Apr 2025, 19:27 » in Java

Ich habe ein Problem mit dem Speicher - jedes Mal, wenn ich das Layout ändere, steigt die Speicher. Auch wenn es im Leerlauf langsam steigt, steigt es langsam, obwohl im Hintergrund nichts läuft. Ich...

0 Replies

11 Views

Last post by Anonymous
14 Apr 2025, 19:27
Der Android Studio -Speicher steigt mit jedem Layoutschalter

Last post by Anonymous « 14 Apr 2025, 19:27
Posted in Android

by Anonymous » 14 Apr 2025, 19:27 » in Android

Ich habe ein Problem mit dem Speicher - jedes Mal, wenn ich das Layout ändere, steigt die Speicher. Auch wenn es im Leerlauf langsam steigt, steigt es langsam, obwohl im Hintergrund nichts läuft. Ich...

0 Replies

16 Views

Last post by Anonymous
14 Apr 2025, 19:27
Wie ist die Beziehung zwischen Intel -Erweiterung für Pytorch und Pytorch XPU -Versionen?

Last post by Anonymous « 18 Aug 2025, 12:57
Posted in Python

by Anonymous » 18 Aug 2025, 12:57 » in Python

Vor einiger Zeit habe ich ein Deep -Learning -Modell auf einem Computer ohne Nvidia -GPU, aber mit einer Intel -GPU, trainiert. Ich benutzte die CPU nur zum Training, was schmerzhaft langsam war. Mir...

0 Replies

1 Views

Last post by Anonymous
18 Aug 2025, 12:57
So füllen Sie Cache mit neuen Werten, wenn der Abfrage -Cache abläuft: EHCache 3 und Hibernate 5

Last post by Guest « 09 Feb 2025, 10:20
Posted in Java

by Guest » 09 Feb 2025, 10:20 » in Java

Ich habe einen Abfrage -Cache namens RateScache, um das Ergebnis meines Datenbankanrufs zu speichern. Es macht einen neuen Anruf in die Datenbank:

30

1000000

Mein Rateentitäts -Cache hat...

0 Replies

24 Views

Last post by Guest
09 Feb 2025, 10:20
So füllen Sie Cache mit neuen Werten, wenn der Abfrage -Cache abläuft: EHCache 3 und Hibernate 5

Last post by Guest « 10 Feb 2025, 09:14
Posted in Java

by Guest » 10 Feb 2025, 09:14 » in Java

Ich habe einen Abfrage -Cache namens RateScache, um das Ergebnis meines Datenbankanrufs zu speichern. Es macht einen neuen Anruf in die Datenbank:

30

1000000

Mein Rateentitäts -Cache hat...

0 Replies

22 Views

Last post by Guest
10 Feb 2025, 09:14

Return to “Python”