Tokenizer.train_from_iterator löst TypeError aus: erwarteter String oder Puffer

Tokenizer.train_from_iterator löst TypeError aus: erwarteter String oder Puffer ⇐ Python

1 post • Page 1 of 1

Anonymous

Tokenizer.train_from_iterator löst TypeError aus: erwarteter String oder Puffer

Post by Anonymous » 02 Jan 2025, 01:00

Ich versuche, einen benutzerdefinierten Tokenizer für ein Projekt zu erstellen, und erhalte die Fehlermeldung tokenizer.train_from_iterator:

Code: Select all

class IngenxPreTokenizer:
def pre_tokenize(self, pretok: PreTokenizedString):
processed = self.base_tokenizer.process_text(pretok)
normalized_tokens = []
current_offset = 0
for token in processed:
token_len = len(token)
normalized_tokens.append((
token,
(current_offset, current_offset + token_len)
))
current_offset += token_len + 1

pretok.tokens = normalized_tokens
return pretok

class IngenxTokenTrainer:
def __init__(self,df,size_dataset =240340,vocab_size=150000,min_freq = 5,batch_size=1000):
self.tokenizer = IngenxTokenizer()
self.df = df
self.size_dataset = size_dataset
self.vocab_size = vocab_size
self.min_freq = min_freq
self.batch_size=1000
self.special_tokens = ["","","",]
self.training_corpus = self.preprare_dataset()

def preprare_dataset(self):
X2 = np.random.choice(len(self.df), size=self.size_dataset, replace=False)
training_texts = [f"{df.iloc[i]['problem']} {df.iloc[i]['solution']}" for i in X2]
return examples

def get_training_corpus(self):
dataset = self.training_corpus
with tqdm(total=len(dataset), desc="Processing training corpus", unit="text") as pbar:
for text in dataset:
pbar.update(1)
yield text

def train_tokenizer(self):
tokenizer = Tokenizer(BPE())
tokenizer.pre_tokenizer = PreTokenizer.custom(IngenxPreTokenizer())

trainer = BpeTrainer(
vocab_size=self.vocab_size,
min_frequency=self.min_freq,
special_tokens=self.special_tokens
)
tokenizer.train_from_iterator(self.get_training_corpus(),trainer=trainer, length=len(self.training_corpus))
tokenizer.save("ingenx_tokenizewr.json")
return tokenizer

Der Fehler:

Exception Traceback (letzter Aufruf zuletzt) in () ----> 1 a.train_tokenizer() in train_tokenizer(self) 41 special_tokens=self.special_tokens 42 ) ---> 43 tokenizer.train_from_iterator(self.get_training_corpus(),trainer=trainer, length=len(self.training_corpus)) 44 tokenizer.save("ingenx_tokenizewr.json") 45 return tokenizer Exception : TypeError: erwarteter String oder Puffer

Ich kann nicht herausfinden, was ich hier falsch mache. Ich habe auch auf die Dokumentation verwiesen und jeden einzelnen Schritt befolgt, erhalte aber immer noch die Fehlermeldung.

1735776018

Anonymous

Ich versuche, einen benutzerdefinierten Tokenizer für ein Projekt zu erstellen, und erhalte die Fehlermeldung tokenizer.train_from_iterator:
[code]class IngenxPreTokenizer:
def pre_tokenize(self, pretok: PreTokenizedString):
processed = self.base_tokenizer.process_text(pretok)
normalized_tokens = []
current_offset = 0
for token in processed:
token_len = len(token)
normalized_tokens.append((
token,
(current_offset, current_offset + token_len)
))
current_offset += token_len + 1

pretok.tokens = normalized_tokens
return pretok

class IngenxTokenTrainer:
def __init__(self,df,size_dataset =240340,vocab_size=150000,min_freq = 5,batch_size=1000):
self.tokenizer = IngenxTokenizer()
self.df = df
self.size_dataset = size_dataset
self.vocab_size = vocab_size
self.min_freq = min_freq
self.batch_size=1000
self.special_tokens = ["","","",]
self.training_corpus = self.preprare_dataset()

def preprare_dataset(self):
X2 = np.random.choice(len(self.df), size=self.size_dataset, replace=False)
training_texts = [f"{df.iloc[i]['problem']} {df.iloc[i]['solution']}" for i in X2]
return examples

def get_training_corpus(self):
dataset = self.training_corpus
with tqdm(total=len(dataset), desc="Processing training corpus", unit="text") as pbar:
for text in dataset:
pbar.update(1)
yield text

def train_tokenizer(self):
tokenizer = Tokenizer(BPE())
tokenizer.pre_tokenizer = PreTokenizer.custom(IngenxPreTokenizer())

trainer = BpeTrainer(
vocab_size=self.vocab_size,
min_frequency=self.min_freq,
special_tokens=self.special_tokens
)
tokenizer.train_from_iterator(self.get_training_corpus(),trainer=trainer, length=len(self.training_corpus))
tokenizer.save("ingenx_tokenizewr.json")
return tokenizer
[/code]
Der Fehler:

Exception Traceback (letzter Aufruf zuletzt)  in () ----> 1 a.train_tokenizer()  in train_tokenizer(self) 41 special_tokens=self.special_tokens 42 ) ---> 43 tokenizer.train_from_iterator(self.get_training_corpus(),trainer=trainer, length=len(self.training_corpus)) 44 tokenizer.save("ingenx_tokenizewr.json") 45 return tokenizer Exception : TypeError: erwarteter String oder Puffer

Ich kann nicht herausfinden, was ich hier falsch mache. Ich habe auch auf die Dokumentation verwiesen und jeden einzelnen Schritt befolgt, erhalte aber immer noch die Fehlermeldung.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Warum gibt Iterable.iterator() Iterator anstelle von Iterator< zurück? super E>?

Last post by Anonymous « 27 Jan 2025, 11:01
Posted in Java

by Anonymous » 27 Jan 2025, 11:01 » in Java

Ich habe über diese Frage nachgedacht. Das OP dieser Frage wollte dem Ergebnis von Collection .Iterator () einem Iterator zuweisen. Wenn die iterable Schnittstelle so definiert wurde:
interface...

0 Replies

37 Views

Last post by Anonymous
27 Jan 2025, 11:01
Wie kann Iterator an Iterator gegossen werden?

Last post by Anonymous « 27 Jan 2025, 10:33
Posted in Java

by Anonymous » 27 Jan 2025, 10:33 » in Java

Wenn SubClass SuperClass erweitert, kann Iterator nicht in Iterator umgewandelt werden. Allerdings habe ich die Situation, dass die Schnittstellen verlangen Iterator

0 Replies

33 Views

Last post by Anonymous
27 Jan 2025, 10:33
MAP > zur Liste > Verwenden der Stream -API

Last post by Anonymous « 21 Feb 2025, 22:13
Posted in Java

by Anonymous » 21 Feb 2025, 22:13 » in Java

Verwenden der Java 8 -Stream -API Wie kann ich eine Karte zum Paar List, in der der linke Paarwert die Karte und die MAP -Taste ist, und die von der linken Paarwert verflachen kann. Rechts ist der...

0 Replies

18 Views

Last post by Anonymous
21 Feb 2025, 22:13
Erwarteter Typ 'MagicFilter | Keine ', habe stattdessen' bool '

Last post by Guest « 05 Feb 2025, 12:38
Posted in Python

by Guest » 05 Feb 2025, 12:38 » in Python

Ich kann nicht herausfinden, warum dieser Fehler auftritt:
Expected type 'MagicFilter | None', got 'bool' instead

In dieser Zeile:...

0 Replies

11 Views

Last post by Guest
05 Feb 2025, 12:38
Erwarteter C ++ - Compiler -Fehler in yvals_core.h

Last post by Guest « 14 Feb 2025, 04:37
Posted in C++

by Guest » 14 Feb 2025, 04:37 » in C++

Ich verwende CMake mit Visual Studio und erhalte den Fehler immer wieder yvals_core.h (23): Fatal Fehler C1189: #Error: STL1003: Unerwarteter Compiler, erwarteter C ++ - Compiler.
Dieser Fehler...

0 Replies

7 Views

Last post by Guest
14 Feb 2025, 04:37

Return to “Python”