Wie kann ich Stringvergleiche beschleunigen? - Programmiererforum

Wie kann ich Stringvergleiche beschleunigen? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Wie kann ich Stringvergleiche beschleunigen?

Report
Quote

Post by Anonymous » 13 Jan 2026, 17:16

Ich habe ein Python3-Skript, das bis zu vier Millionen tabulatorgetrennte Zeilen aus stdin liest. Das Skript sucht in einem bestimmten Feld jeder Zeile nach unterschiedlichen Textwerten und ruft eine andere Funktion auf, um die anderen Felder basierend auf der Textübereinstimmung in andere Dateien zu schreiben. Hier ist ein gekürztes Beispiel:

Code: Select all

for input_line in sys.stdin:
line_lst = input_line.split('\t')

if '"text-1' in line_lst[5]:
write_text_1(line_lst[1], line_lst[3], line_lst[2], line_lst[5])
elif '"text-2":' in line_lst[5]:
write_text_2(line_lst[1], line_lst[3], line_lst[2], line_lst[5])
elif '"other-text' in line_lst[5]:
write_other_text(line_lst[1], line_lst[3], line_lst[2], line_lst[5])
elif 'string-5' in line_lst[5]:
write_string_5(line_lst[1], line_lst[3], line_lst[2], line_lst[5])

Die Schreibfunktionen werden von parallelen untergeordneten Prozessen verarbeitet, um die E/A-Wartezeit auf ein Minimum zu reduzieren.
Ich habe das Skript über cProfile ausgeführt und die Verzögerungen scheinen innerhalb des Zeichenfolgenvergleichs zu liegen:

Code: Select all

  4482211   23.477    0.000  221.176    0.000 queues.py:369(put)
4482211   25.623    0.000  110.693    0.000 connection.py:181(send_bytes)
4482211   25.838    0.000   34.225    0.000 reduction.py:38(__init__)
4482211   43.656    0.000   43.656    0.000 {built-in method posix.write}
4482214    2.652    0.000    2.652    0.000 {method 'copy' of 'dict' objects}
4482232    5.735    0.000    5.735    0.000 {method 'update' of 'dict' objects}
8903380    3.625    0.000    3.625    0.000 {method 'end' of 're.Match' objects}
8903496   12.774    0.000   12.774    0.000 {method 'match' of 're.Pattern' objects}

Ich verwende nicht explizit den Vergleich regulärer Ausdrücke, daher vermute ich, dass der oben erwähnte Text „re.Pattern“ und „re.Match“ Python ist, der intern REs verwendet.
Gibt es eine schnellere Möglichkeit, mehrere unterschiedliche Zeichenfolgen zu vergleichen als eine if/elif-Struktur?

1768321006

Anonymous

Ich habe ein Python3-Skript, das bis zu vier Millionen tabulatorgetrennte Zeilen aus stdin liest. Das Skript sucht in einem bestimmten Feld jeder Zeile nach unterschiedlichen Textwerten und ruft eine andere Funktion auf, um die anderen Felder basierend auf der Textübereinstimmung in andere Dateien zu schreiben. Hier ist ein gekürztes Beispiel:
[code]for input_line in sys.stdin:
line_lst = input_line.split('\t')

if '"text-1' in line_lst[5]:
write_text_1(line_lst[1], line_lst[3], line_lst[2], line_lst[5])
elif '"text-2":' in line_lst[5]:
write_text_2(line_lst[1], line_lst[3], line_lst[2], line_lst[5])
elif '"other-text' in line_lst[5]:
write_other_text(line_lst[1], line_lst[3], line_lst[2], line_lst[5])
elif 'string-5' in line_lst[5]:
write_string_5(line_lst[1], line_lst[3], line_lst[2], line_lst[5])
[/code]
Die Schreibfunktionen werden von parallelen untergeordneten Prozessen verarbeitet, um die E/A-Wartezeit auf ein Minimum zu reduzieren.
Ich habe das Skript über cProfile ausgeführt und die Verzögerungen scheinen innerhalb des Zeichenfolgenvergleichs zu liegen:
[code]  4482211   23.477    0.000  221.176    0.000 queues.py:369(put)
4482211   25.623    0.000  110.693    0.000 connection.py:181(send_bytes)
4482211   25.838    0.000   34.225    0.000 reduction.py:38(__init__)
4482211   43.656    0.000   43.656    0.000 {built-in method posix.write}
4482214    2.652    0.000    2.652    0.000 {method 'copy' of 'dict' objects}
4482232    5.735    0.000    5.735    0.000 {method 'update' of 'dict' objects}
8903380    3.625    0.000    3.625    0.000 {method 'end' of 're.Match' objects}
8903496   12.774    0.000   12.774    0.000 {method 'match' of 're.Pattern' objects}
[/code]
Ich verwende nicht explizit den Vergleich regulärer Ausdrücke, daher vermute ich, dass der oben erwähnte Text „re.Pattern“ und „re.Match“ Python ist, der intern REs verwendet.
Gibt es eine schnellere Möglichkeit, mehrere unterschiedliche Zeichenfolgen zu vergleichen als eine if/elif-Struktur?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie kann ich Python Curve_fit über ein 2D-Array beschleunigen?

Last post by Guest « 15 Jan 2025, 17:43
Posted in Python

by Guest » 15 Jan 2025, 17:43 » in Python

Ich muss die Numpy-Funktion „curve_fit“ für einen großen Datensatz (5.000.000) verwenden.
Im Grunde habe ich also ein 2D-Array erstellt. Die erste Dimension ist die Anzahl der durchzuführenden...

0 Replies

22 Views

Last post by Guest
15 Jan 2025, 17:43
Wie kann ich CV2.FindtransformeCC eine erste Vermutung geben, um die Warp -Matrix zu beschleunigen?

Last post by Anonymous « 27 Jan 2025, 10:44
Posted in Python

by Anonymous » 27 Jan 2025, 10:44 » in Python

Ich habe ein Bild, das zwei doppelte Bilder enthält. Ich schneide das Bild vertikal in zwei Hälften und benötige, dass die Bilder übereinstimmen, wenn sie Pixel für Pixel überlagert werden. Ich...

0 Replies

42 Views

Last post by Anonymous
27 Jan 2025, 10:44
Der Komponist ist bei der Installation von Laravel über Create-Project extrem langsam-wie kann ich es beschleunigen?

Last post by Anonymous « 23 Apr 2025, 08:43
Posted in Php

by Anonymous » 23 Apr 2025, 08:43 » in Php

Ich versuche Laravel mit dem folgenden Befehl zu installieren:
composer create-project laravel/laravel cms 5.1.*

Das erste Setup wird abgeschlossen, aber wenn der Komponist mit dem Herunterladen...

0 Replies

36 Views

Last post by Anonymous
23 Apr 2025, 08:43
Wenn die Ausgabedatei wächst, sinkt die Schreibgeschwindigkeit. Wie kann ich das Schreiben der Datei beschleunigen?

Last post by Anonymous « 14 Dec 2025, 02:59
Posted in Python

by Anonymous » 14 Dec 2025, 02:59 » in Python

Ich habe einen Code:
saveData = {
xyStep : xyStep,
xRange : xRange,
yRange : yRange,
zRange : zRange,
zBase : zBase,
data : [ * ceil(xRange/xyStep) for i in range(ceil(yRange/xyStep))],
}...

0 Replies

14 Views

Last post by Anonymous
14 Dec 2025, 02:59
Wie kann ich eine QA-Langchain mit load_qa_with_sources_chain beschleunigen?

Last post by Anonymous « 24 Dec 2025, 03:09
Posted in Python

by Anonymous » 24 Dec 2025, 03:09 » in Python

Ich verwende derzeit ein QA-Modell mit load_qa_with_sources_chain(). Wenn ich es jedoch mit drei Blöcken von jeweils bis zu 10.000 Token ausführe, dauert es etwa 35 Sekunden, bis eine Antwort...

0 Replies

11 Views

Last post by Anonymous
24 Dec 2025, 03:09

Return to “Python”