Code: Select all
dfJetzt muss ich jedes Tupel (in einer neuen Spalte Label) mit 1 kennzeichnen, wenn es mindestens 5 identische Zeichen enthält, und andernfalls mit 0.
Ich versuche, einen Weg zu finden, dies zu tun, ohne ein Leben lang zu dauern...
Mein erster naiver Versuch (nach dem Importieren). Zähler aus Sammlungen) war
Code: Select all
for j in tqdm(df.index):
cond = max(Counter(df[df.index==j].Tuple.values[0]).values()) >= 5
df.loc[df.index==j, "Label"] = int(cond)
Da die Tupels also Sätzens mit etwa 100.000 Einträgen zugewiesen sind, habe ich mir überlegt, sie innerhalb jedes einzelnen Satzes zu kennzeichnen und anschließend alles wieder zusammenzusetzen
Code: Select all
dfs = []
for i in tqdm(df.Set.unique()):
_df = df[df.Set==i].copy(deep=True)
for j in tqdm(_df.index, leave=False):
cond = max(Counter(_df[_df.index==j].Tuple.values[0]).values()) >= 5
_df.loc[_df.index==j, "Label"] = int(cond)
dfs.append(_df)
Irgendwelche Vorschläge?
Mobile version