Gibt es einen schnellen Weg, um eine Stringsspalte mit jedem Substring in einer Liste anzupassen? - Programmiererforum

Gibt es einen schnellen Weg, um eine Stringsspalte mit jedem Substring in einer Liste anzupassen? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Gibt es einen schnellen Weg, um eine Stringsspalte mit jedem Substring in einer Liste anzupassen?

Post by Anonymous » 22 Feb 2025, 02:09

Ich habe eine Datenfrequenzspalte, die aus Strings besteht. Ich habe auch eine Liste von Substrings. Für jedes Substring möchte ich es gegen jede Zeichenfolge in der Spalte DataFrame testen und true zurückgeben, wenn sich das Substring in der Zeichenfolge befindet. Die folgenden Funktionen sind aber sehr langsam. < /P>

Code: Select all

import pandas as pd
import time

t0 = time.time()

df = pd.DataFrame({
'FullName': ['C:/historical Dog analysis/Digger.doc', 'C:/historical Dog analysis/Roscoe.doc', 'C:/2024/Budgie requests/pipsqueak.csv', 'C:/text4.doc', 'C:/text5.doc'],
})

new_columns = {"_Outreach/Website design": (df['FullName'].str.contains("/historical Dog analysis/|"\
"/Budgie requests/|"\
"Dog analysis/best practices",case=False))
}

new_df = pd.DataFrame(new_columns)

df = pd.concat([df, new_df], axis=1).reindex(df.index)

t1 = time.time()
print(t1-t0)
print(df)

Um einen schnelleren Ansatz zu finden, habe ich ISIn versucht. Br />

Code: Select all

t0 = time.time()

df = pd.DataFrame({
'FullName': ['C:/historical Dog analysis/Digger.doc', 'C:/historical Dog analysis/Roscoe.doc', 'C:/2024/Budgie requests/pipsqueak.csv', 'C:/text4.doc', 'C:/text5.doc'],
})

#works, but not useful because requires full string match
new_columns = df["FullName"].isin(["C:/historical Dog analysis/Digger.doc","C:/2024/Budgie requests/pipsqueak.csv"])
#doesn't work (Returns a list of FALSE in next column)
# new_columns = df["FullName"].isin([".*/historical Dog analysis/.*"])

new_df = pd.DataFrame(new_columns)

df = pd.concat([df, new_df], axis=1).reindex(df.index)
t1 = time.time()
print(t1-t0)
print(df)

Ich habe auch Filter ausprobiert, aber es scheint, dass es jeweils nur eine Substring -Eingabe einnehmen kann.

Code: Select all

col_one_list = df['FullName'].tolist()
#doesn't work:TypeError: 'in ' requires string as left operand, not list
# b = ["/historical Dog analysis/","/Budgie requests/"]
#doesn't work: TypeError: unsupported operand type(s) for |: 'str' and 'str'
# b = ("/historical Dog analysis/"|"/Budgie requests/")
#works, but can only search one substring at a time
b = "/historical Dog analysis/"
new_columns = list(filter(lambda x: b in x, col_one_list))
print(new_columns)

new_df = pd.DataFrame(new_columns)

df = pd.concat([df, new_df], axis=1).reindex(df.index)
t1 = time.time()
print(t1-t0)
print(df)

Kennt jemand einen schnellen Weg, um eine Liste von Substrings an Zeichenfolgen anzupassen?

1740186555

Anonymous

Ich habe eine Datenfrequenzspalte, die aus Strings besteht.  Ich habe auch eine Liste von Substrings.  Für jedes Substring möchte ich es gegen jede Zeichenfolge in der Spalte DataFrame testen und  true  zurückgeben, wenn sich das Substring in der Zeichenfolge befindet. Die folgenden Funktionen sind aber sehr langsam. < /P>
[code]import pandas as pd
import time

t0 = time.time()

df = pd.DataFrame({
'FullName': ['C:/historical Dog analysis/Digger.doc', 'C:/historical Dog analysis/Roscoe.doc', 'C:/2024/Budgie requests/pipsqueak.csv', 'C:/text4.doc', 'C:/text5.doc'],
})

new_columns = {"_Outreach/Website design": (df['FullName'].str.contains("/historical Dog analysis/|"\
"/Budgie requests/|"\
"Dog analysis/best practices",case=False))
}

new_df = pd.DataFrame(new_columns)

df = pd.concat([df, new_df], axis=1).reindex(df.index)

t1 = time.time()
print(t1-t0)
print(df)
[/code]
Um einen schnelleren Ansatz zu finden, habe ich ISIn versucht. Br />[code]t0 = time.time()

df = pd.DataFrame({
'FullName': ['C:/historical Dog analysis/Digger.doc', 'C:/historical Dog analysis/Roscoe.doc', 'C:/2024/Budgie requests/pipsqueak.csv', 'C:/text4.doc', 'C:/text5.doc'],
})

#works, but not useful because requires full string match
new_columns = df["FullName"].isin(["C:/historical Dog analysis/Digger.doc","C:/2024/Budgie requests/pipsqueak.csv"])
#doesn't work (Returns a list of FALSE in next column)
# new_columns = df["FullName"].isin([".*/historical Dog analysis/.*"])

new_df = pd.DataFrame(new_columns)

df = pd.concat([df, new_df], axis=1).reindex(df.index)
t1 = time.time()
print(t1-t0)
print(df)
[/code]
Ich habe auch Filter  ausprobiert, aber es scheint, dass es jeweils nur eine Substring -Eingabe einnehmen kann. 
[code]col_one_list = df['FullName'].tolist()
#doesn't work:TypeError: 'in ' requires string as left operand, not list
# b = ["/historical Dog analysis/","/Budgie requests/"]
#doesn't work: TypeError: unsupported operand type(s) for |: 'str' and 'str'
# b = ("/historical Dog analysis/"|"/Budgie requests/")
#works, but can only search one substring at a time
b = "/historical Dog analysis/"
new_columns = list(filter(lambda x: b in x, col_one_list))
print(new_columns)

new_df = pd.DataFrame(new_columns)

df = pd.concat([df, new_df], axis=1).reindex(df.index)
t1 = time.time()
print(t1-t0)
print(df)
[/code]
Kennt jemand einen schnellen Weg, um eine Liste von Substrings an Zeichenfolgen anzupassen?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

CSS -Attribute, um die Anzeigebreite eines Objekts anzupassen

Last post by Anonymous « 28 Feb 2025, 06:16
Posted in HTML

by Anonymous » 28 Feb 2025, 06:16 » in HTML

In einer Web -App (next.js/react) zeige ich ein paar Elemente mit Flex an, fast in einem Raster (aber nicht ganz). Und ich brauche einige Ratschläge, um die Breite des letzten Elements...

0 Replies

10 Views

Last post by Anonymous
28 Feb 2025, 06:16
CSS -Attribute, um die Anzeigebreite eines Objekts anzupassen

Last post by Anonymous « 28 Feb 2025, 06:16
Posted in CSS

by Anonymous » 28 Feb 2025, 06:16 » in CSS

In einer Web -App (next.js/react) zeige ich ein paar Elemente mit Flex an, fast in einem Raster (aber nicht ganz). Und ich brauche einige Ratschläge, um die Breite des letzten Elements...

0 Replies

7 Views

Last post by Anonymous
28 Feb 2025, 06:16
Umgang mit schnellen Einschränkungen der CGAL -eingeschränkten Delaunay -Triangulation

Last post by Anonymous « 01 Mar 2025, 12:23
Posted in C++

by Anonymous » 01 Mar 2025, 12:23 » in C++

Ich verwende cGAL eingeschränkte Delaunay -Triangulation , um eine automatisch erzeugte Polylinie zu triangulieren, die aus dem Contourfinder von OpenCV erhalten wurde. Wenn die Form jedoch leicht...

0 Replies

10 Views

Last post by Anonymous
01 Mar 2025, 12:23
Auf der Suche nach einem einfachen, schnellen Werkzeug zum Zeichnen von Tazhib-Grenzen

Last post by Guest « 20 Jan 2025, 18:31
Posted in Android

by Guest » 20 Jan 2025, 18:31 » in Android

Ich suche nach einem einfachen und schnellen Werkzeug, das mir beim Zeichnen von Tazhib-Grenzen hilft. Ich bin ein Anfänger in dieser Kunst und finde es ziemlich schwierig, komplizierte geometrische...

0 Replies

16 Views

Last post by Guest
20 Jan 2025, 18:31
Spring RestTemplate SocketException -Verbindungsverbindung bei schnellen aufeinanderfolgenden Ausführungen zurückgesetzt

Last post by Anonymous « 16 Mar 2025, 15:06
Posted in Java

by Anonymous » 16 Mar 2025, 15:06 » in Java

Setup
Einfache Server- und Client -Anwendungen, die lokal ausgeführt werden. Der Serverendpunkt empfängt eine Postanforderung mit einer Schlafzeit, um die Arbeit zu simulieren. Client ist eine...

0 Replies

8 Views

Last post by Anonymous
16 Mar 2025, 15:06

Return to “Python”