Ich habe beim Training auf der GPU einen Kontrollpunkt gespeichert. Nachdem ich den Checkpoint neu geladen und das Training fortgesetzt habe, erhalte ich die folgende Fehlermeldung:
Traceback (most recent call last):
File "main.py", line 140, in
train(model,optimizer,train_loader,val_loader,criteria=args.criterion,epoch=epoch,batch=batch)
File "main.py", line 71, in train
optimizer.step()
File "/opt/conda/lib/python3.7/site-packages/torch/autograd/grad_mode.py", line 26, in decorate_context
return func(*args, **kwargs)
File "/opt/conda/lib/python3.7/site-packages/torch/optim/sgd.py", line 106, in step
buf.mul_(momentum).add_(d_p, alpha=1 - dampening)
RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu!
Ich habe beim Training auf der GPU einen Kontrollpunkt gespeichert. Nachdem ich den Checkpoint neu geladen und das Training fortgesetzt habe, erhalte ich die folgende Fehlermeldung: [code]Traceback (most recent call last): File "main.py", line 140, in train(model,optimizer,train_loader,val_loader,criteria=args.criterion,epoch=epoch,batch=batch) File "main.py", line 71, in train optimizer.step() File "/opt/conda/lib/python3.7/site-packages/torch/autograd/grad_mode.py", line 26, in decorate_context return func(*args, **kwargs) File "/opt/conda/lib/python3.7/site-packages/torch/optim/sgd.py", line 106, in step buf.mul_(momentum).add_(d_p, alpha=1 - dampening) RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu! [/code] Mein Trainingscode lautet wie folgt: [code]def train(model,optimizer,train_loader,val_loader,criteria,epoch=0,batch=0): batch_count = batch if criteria == 'l1': criterion = L1_imp_Loss() elif criteria == 'l2': criterion = L2_imp_Loss() if args.gpu and torch.cuda.is_available(): model.cuda() criterion = criterion.cuda()
print(f'{datetime.datetime.now().time().replace(microsecond=0)} Starting to train..')
Ich versuche, eine Lora in Comfyui mit der modifizierten Version des Beispiel-Workflows für comfyui-fluxtrainer ( zu trainieren. Ich habe hier auf Reddit gefunden ( Dies ist die erste Version, in der...
Ich versuche, ein Lama-Modell mit LORA zu optimieren, aber ich erhalte den folgenden Fehler während des Trainings:
RuntimeError: element 0 of tensors does not require grad and does not have a...
Also versuche ich, wenn möglich, alle meine DLL-Dateien in meiner Exe-Datei zusammenzuführen, damit ich die Exe-Datei ausführen kann, ohne die DLL-Dateien im selben Verzeichnis zu benötigen.
Ich habe...
Ich verwende den Frühlingsstarter-E-E-Mail-Service, um E-Mails an die Benutzer zu senden, wenn es neue Stellenangebote geben wird: Ich folge diesem Artikel von Geeks for Geeks. Ich denke, das Problem...