Aus dem Gedächtnisproblem in Lllama3.1 8B -Finetuning

Aus dem Gedächtnisproblem in Lllama3.1 8B -Finetuning ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Aus dem Gedächtnisproblem in Lllama3.1 8B -Finetuning

Report
Quote

Post by Guest » 18 Feb 2025, 13:59

Ich versuche, Lama3.1 8B zu finanzieren. Ich verwende 4 A10g GPU mit jeweils 24 GB.

Code: Select all

from accelerate import PartialState
device_string = PartialState().process_index

torch_dtype = torch.float16
attn_implementation = "eager"

bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch_dtype,
bnb_4bit_use_double_quant=True
)

# Load model
model = AutoModelForCausalLM.from_pretrained(
base_model,
quantization_config=bnb_config,
# device_map={'':torch.cuda.current_device()},
# device_map="auto",
device_map={'':device_string},
attn_implementation=attn_implementation
)

# LoRA config
peft_config = LoraConfig(
r=16,
lora_alpha=32,
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM",
target_modules=['up_proj', 'down_proj', 'gate_proj', 'k_proj', 'q_proj', 'v_proj', 'o_proj']
)
model = get_peft_model(model, peft_config)

training_arguments = TrainingArguments(
output_dir=new_model,
per_device_train_batch_size=1,
per_device_eval_batch_size=1,
gradient_accumulation_steps=2,
# gradient_checkpointing_kwargs={'use_reentrant':False},
optim="paged_adamw_32bit",
num_train_epochs=5,
evaluation_strategy="steps",
eval_steps=0.2,
logging_steps=1,
warmup_steps=10,
logging_strategy="steps",
learning_rate=2e-4,
fp16=False,
bf16=False,
group_by_length=True,
report_to="tensorboard"
)

trainer = SFTTrainer(
model=model,
train_dataset=dataset["train"],
eval_dataset=dataset["test"],
peft_config=peft_config,
# max_seq_length=512,
# dataset_text_field="text",
tokenizer=tokenizer,
args=training_arguments,
# packing= False,
)
trainer.train()
< /code>
Ich starte es mit < /p>
 python -m torch.distributed.launch trainer.py

resultiert jedoch zu einem Speicher Problem beim Laden des Basismodells. kann Multi -GPU zur Finetuning verwenden?. Wenn ja, welche Konfigurationsänderung ist erforderlich.

1739883589

Guest

Ich versuche, Lama3.1 [b] 8B [/b] zu finanzieren. Ich verwende 4 A10g GPU mit jeweils 24 GB.[code]from accelerate import PartialState
device_string = PartialState().process_index

torch_dtype = torch.float16
attn_implementation = "eager"

bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch_dtype,
bnb_4bit_use_double_quant=True
)

# Load model
model = AutoModelForCausalLM.from_pretrained(
base_model,
quantization_config=bnb_config,
# device_map={'':torch.cuda.current_device()},
# device_map="auto",
device_map={'':device_string},
attn_implementation=attn_implementation
)

# LoRA config
peft_config = LoraConfig(
r=16,
lora_alpha=32,
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM",
target_modules=['up_proj', 'down_proj', 'gate_proj', 'k_proj', 'q_proj', 'v_proj', 'o_proj']
)
model = get_peft_model(model, peft_config)

training_arguments = TrainingArguments(
output_dir=new_model,
per_device_train_batch_size=1,
per_device_eval_batch_size=1,
gradient_accumulation_steps=2,
# gradient_checkpointing_kwargs={'use_reentrant':False},
optim="paged_adamw_32bit",
num_train_epochs=5,
evaluation_strategy="steps",
eval_steps=0.2,
logging_steps=1,
warmup_steps=10,
logging_strategy="steps",
learning_rate=2e-4,
fp16=False,
bf16=False,
group_by_length=True,
report_to="tensorboard"
)

trainer = SFTTrainer(
model=model,
train_dataset=dataset["train"],
eval_dataset=dataset["test"],
peft_config=peft_config,
# max_seq_length=512,
# dataset_text_field="text",
tokenizer=tokenizer,
args=training_arguments,
# packing= False,
)
trainer.train()
< /code>
Ich starte es mit < /p>
 python -m torch.distributed.launch trainer.py[/code] 
resultiert jedoch zu einem Speicher  [url=viewtopic.php?t=11587]Problem[/url] beim Laden des Basismodells. kann Multi -GPU zur Finetuning verwenden?. Wenn ja, welche Konfigurationsänderung ist erforderlich.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Intellij + Spring + Gurke: Eine mit dem vor, nach dem Nachher oder nach dem Greifer kommentierte Methode muss eine diese

Last post by Anonymous « 02 Apr 2025, 04:03
Posted in Java

by Anonymous » 02 Apr 2025, 04:03 » in Java

im Verwenden:

Intellij 2023.3
Spring Boot 3.2.4
GUCUMBER 7.15
IMG. Hier src = />
Wenn ich dies jedoch mache, läuft der Test immer in den Fehler:
Suppressed:...

0 Replies

19 Views

Last post by Anonymous
02 Apr 2025, 04:03
Intellij + Spring + Gurke: Eine mit dem vor, nach dem Nachher oder nach dem Greifer kommentierte Methode muss eine diese

Last post by Anonymous « 02 Apr 2025, 11:33
Posted in Java

by Anonymous » 02 Apr 2025, 11:33 » in Java

im Verwenden:

Intellij 2023.3
Spring Boot 3.2.4
GUCUMBER 7.15
IMG. Hier src = />
Wenn ich dies jedoch mache, läuft der Test immer in den Fehler:
Suppressed:...

0 Replies

20 Views

Last post by Anonymous
02 Apr 2025, 11:33
Xamlreader.load - Soll ich neue XAML aus dem initialisierten Ereignis oder dem geladenen Ereignis laden?

Last post by Anonymous « 13 Feb 2025, 18:40
Posted in C#

by Anonymous » 13 Feb 2025, 18:40 » in C#

Ich habe ein WPF UserControl mit einem Raster:

Ich verwende xamlreader.load, um XAML aus einer Datei zu laden, und rufen Sie dann auf:
GridContainer.Children.Add(loadedXaml);

In diesem...

0 Replies

23 Views

Last post by Anonymous
13 Feb 2025, 18:40
Wie kann ich einen Preissatz abfragen, der auf dem Preis basiert, der ab dem Datum nach der Ermittlung des Kontry aus ei

Last post by Anonymous « 02 May 2025, 08:39
Posted in Php

by Anonymous » 02 May 2025, 08:39 » in Php

Ich versuche herauszufinden, wie ich einer Reihe von Anrufaufzeichnungen Zuschlagsraten hinzufügen kann. Bis vor kurzem haben sich die Preise noch nie geändert und ich kann den richtigen Tarif für...

0 Replies

14 Views

Last post by Anonymous
02 May 2025, 08:39
Wie kann ich einen Preissatz abfragen, der auf dem Preis basiert, der ab dem Datum nach der Ermittlung des Kontry aus ei

Last post by Anonymous « 02 May 2025, 08:39
Posted in MySql

by Anonymous » 02 May 2025, 08:39 » in MySql

Ich versuche herauszufinden, wie ich einer Reihe von Anrufaufzeichnungen Zuschlagsraten hinzufügen kann. Bis vor kurzem haben sich die Preise noch nie geändert und ich kann den richtigen Tarif für...

0 Replies

19 Views

Last post by Anonymous
02 May 2025, 08:39

Return to “Python”