Tokenizer-Konfiguration – MLXPython

Python-Programme
Anonymous
 Tokenizer-Konfiguration – MLX

Post by Anonymous »

Ich versuche gerade, ein Modell auf MLX zu laden. Aber wenn ich das Modell lade und den Tokenizer verwende, tritt das folgende Problem auf:

mit einem falschen Regex-Muster: https://huggingface.co/mistralai/Mistra ... e709447d5e. Dies führt zu einer falschen Tokenisierung. Sie sollten beim Laden dieses Tokenizers das Flag fix_mistral_regex=True setzen, um dieses Problem zu beheben.

Aber ich verstehe nicht, wie ich das mit meinem Code machen soll:

Code: Select all

from mlx_lm import load, generate

out = load("mlx-community/translategemma-12b-it-4bit")
if len(out) == 2:
model, tokenizer = out
else:
model, tokenizer, struct = out

prompt = "Write a story about Einstein"
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True
)

text = generate(model, tokenizer, prompt=prompt, verbose=True)

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post