Textbereinigung: Datumsangaben aus dem Text entfernen, sofern vorhandenPython

Python-Programme
Anonymous
 Textbereinigung: Datumsangaben aus dem Text entfernen, sofern vorhanden

Post by Anonymous »

Ich müsste Text bereinigen, der möglicherweise eine Sequenz wie diese enthält:

Code: Select all

Date            Text
2020-06-01  1 giu 2020 - Per farlo hai messo in atto un pia...
2020-06-01  La trappola del Paragone
2020-06-05  5 giu 2020 - sistema Aegis Ashore? N...
2020-06-05  Lewis Hamilton - «Il silenzio colpevole della F1»

Es kann Texte geben, die mit einem Datum beginnen (Format 1 Juni 2020, d. h. t m yyyy, gefolgt von -) und Texte, die nicht mit einem Datum beginnen.
Ich würde gerne wissen, wie man nur den Teil des Textes behält, d. h.

Code: Select all

Date            Text
2020-06-01  Per farlo hai messo in atto un pia...
2020-06-01  La trappola del Paragone
2020-06-05  sistema Aegis Ashore? N...
2020-06-05  Lewis Hamilton - «Il silenzio colpevole della F1»
Ich habe es wie folgt versucht:

Code: Select all

fil_dataset['Text']=fil_dataset['Text'].str.split(n=4).str[-1]
funktioniert aber nicht, da dadurch auch Teile des Textes entfernt werden können. Eine mögliche Lösung, die Anky in seinem/ihrem Kommentar unten vorgeschlagen hat, funktioniert leider nicht so gut, da ich auch bedenken muss, dass es möglicherweise ein - gibt, das nicht auf ein Datum folgt, wodurch Text entfernt werden könnte.
Vielen Dank für Ihre Hilfe.

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post