Erstellen Sie ein neues DataFrame -Formular ein vorhandener Datenrahmen, der nur die Zeilen enthält, die angegebene Rege

Post a reply

Smilies
:) :( :oops: :chelo: :roll: :wink: :muza: :sorry: :angel: :read: *x) :clever:
View more smilies

BBCode is ON
[img] is ON
[flash] is OFF
[url] is ON
Smilies are ON

Topic review
   

Expand view Topic review: Erstellen Sie ein neues DataFrame -Formular ein vorhandener Datenrahmen, der nur die Zeilen enthält, die angegebene Rege

by Anonymous » 10 Feb 2025, 12:59

Ich habe einen Datenrahmen namens "Base_dataFrame", der folgt: < /p>

Code: Select all

      F_NAME      L_NAME       EMAIL
0     Suzy        Maripol      [email protected]
1     Anna        Smith        [email protected]
2     Flo         Mariland     [email protected]
3     Sarah       Linder       [email protected]
4     Nala        Kross        [email protected]
5     Sarosh      Fink         [email protected]
< /code>
Ich möchte einen neuen Datenrahmen erstellen, der nur die Zeilen enthält, die bestimmte reguläre Ausdrücke entsprechen, die ich definiere: < /p>

[*] Für die Spalte "F_Name" möchte ich nur die Zeilen kopieren, die "SAR"
 für die Spalte "l_name" enthalten Ich möchte nur die Zeilen kopieren, die "Mari" 
< /ul>
Die Art und Weise, wie ich dies in meinem Code angehe, ist: < /p>
sar_df = base_dataframe["F_NAME"].str.extract(r'(?P(^Sar.*))')
mari_df = base_dataframe["L_NAME"].str.extract(r'(?P(^Mari.*))')
Dann kopiere ich diese gefilterten Spalten/DFs auf meinen Zieldatenfreame "new_dataframe":
new_dataframe["selected_F_NAME"] = sar_df.copy
new_dataframe["selected_L_NAME"] = mari_df.copy
< /code>
und mein "new_dataframe" würden am Ende wie folgt aussehen: < /p>
F_NAME L_NAME EMAIL
0 Suzy Maripol [email protected]
2 Flo Mariland [email protected]
3 Sarah Linder [email protected]
5 Sarosh Fink [email protected]
< /code>
Dies funktioniert für mich, aber es dauert eine extrem lange Zeit, alle Daten in mein "new_dataframe" zu kopieren, da mein "Base_Dataframe" viele hunderttausende Zeilen enthält. Ich muss auch mehrere verschiedene reguläre Expressionen auf Multiples-Spalten anwenden (das von mir angegebene Datenrahmenbeispiel ist im Grunde genommen vereinfacht, um zu erklären, was ich tun möchte). < /P>
Ich bin mir ziemlich sicher Ein optimierterer Weg, dies zu tun, kann es aber momentan nicht herausfinden. Ich würde mich über jede Hilfe freuen.

Top