Entfernen verschiedener Symbole aus einem Text

Entfernen verschiedener Symbole aus einem Text ⇐ Python

1 post • Page 1 of 1

Anonymous

Entfernen verschiedener Symbole aus einem Text

Report
Quote

Post by Anonymous » 17 Jan 2025, 10:48

Ich versuche, einige Texte zu bereinigen, die sich stark voneinander unterscheiden. Ich möchte die Überschriften, Anführungszeichen, Abkürzungen, Sonderzeichen und Punkte entfernen, die eigentlich keine Sätze beenden.
Beispieleingabe:

Code: Select all

This is a headline

And inside the text there are 'abbreviations', e.g. "bzw." in German or some German dates, like 2. Dezember 2017. Sometimes there are even enumerations, that I might just eliminate completely.
• they have
◦ different bullet points
- or even equations and
Sometimes there are special symbols. ✓

Beispielausgabe:

Code: Select all

And inside the text there are abbreviations, for example beziehungsweise in German or some German dates, like 2 Dezember 2017. Sometimes there are even enumerations, that I might just eliminate completely. Sometimes there are special symbols.

Was ich getan habe:

Code: Select all

with open(r'C:\\Users\me\\Desktop\\ex.txt', 'r', encoding="utf8") as infile:
data = infile.read()
data = data.replace("'", '')
data = data.replace("e.g.", 'for example')
#and so on
with open(r'C:\\Users\me\\Desktop\\ex.txt', 'w', encoding="utf8") as outfile:
outfile.write(data)

Meine Probleme (obwohl Nummer 2 das Wichtigste ist):

Ich möchte nur eine Zeichenfolge mit dieser Eingabe, aber sie bricht aufgrund der Anführungszeichen offensichtlich ab. Gibt es eine andere Möglichkeit, dies zu tun, als mit Dateien zu arbeiten, wie ich es getan habe? In Wirklichkeit kopiere ich einen Text und möchte, dass eine App ihn bereinigt.
Der Code scheint sehr ineffizient zu sein, da ich ihn nur manuell bereinige Schreiben Sie die Dinge auf, an die ich mich erinnern kann, sie zu löschen/zu bereinigen, aber ich kenne nicht alle Abkürzungen auswendig. Wie bereinige ich es sozusagen auf einmal?
Gibt es eine Möglichkeit, die Überschrift und Aufzählung sowie den Punkt zu entfernen? das in diesem deutschen Datum erscheint? Mein Code macht das nicht.

Bearbeiten: Mir sind gerade Dinge wie text = re.sub(r" eingefallen. (@\[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)|^rt|http.+?" , "", text), aber Regex ist für riesig ineffizient Texte, nicht wahr?

1737107306

Anonymous

Ich versuche, einige Texte zu [b]bereinigen[/b], die sich stark voneinander unterscheiden. Ich möchte die Überschriften, Anführungszeichen, Abkürzungen, Sonderzeichen und Punkte entfernen, die eigentlich keine Sätze beenden.
Beispieleingabe:
[code]This is a headline

And inside the text there are 'abbreviations', e.g. "bzw." in German or some German dates, like 2. Dezember 2017. Sometimes there are even enumerations, that I might just eliminate completely.
• they have
◦ different bullet points
- or even equations and
Sometimes there are special symbols. ✓
[/code]
Beispielausgabe:
[code]And inside the text there are abbreviations, for example beziehungsweise in German or some German dates, like 2 Dezember 2017. Sometimes there are even enumerations, that I might just eliminate completely. Sometimes there are special symbols.
[/code]
[b]Was ich getan habe:[/b]
[code]with open(r'C:\\Users\me\\Desktop\\ex.txt', 'r', encoding="utf8") as infile:
data = infile.read()
data = data.replace("'", '')
data = data.replace("e.g.", 'for example')
#and so on
with open(r'C:\\Users\me\\Desktop\\ex.txt', 'w', encoding="utf8") as outfile:
outfile.write(data)
[/code]
[b]Meine Probleme (obwohl Nummer 2 das Wichtigste ist):[/b]
[list]
[*]
Ich möchte nur eine Zeichenfolge mit dieser Eingabe, aber sie bricht aufgrund der Anführungszeichen offensichtlich ab. Gibt es eine andere Möglichkeit, dies zu tun, als mit Dateien zu arbeiten, wie ich es getan habe? In Wirklichkeit kopiere ich einen Text und möchte, dass eine App ihn bereinigt.

[*]Der Code scheint sehr ineffizient zu sein, da ich ihn nur manuell bereinige Schreiben Sie die Dinge auf, an die ich mich erinnern kann, sie zu löschen/zu bereinigen, aber ich kenne nicht alle Abkürzungen auswendig. Wie bereinige ich es sozusagen auf einmal?

[*]Gibt es eine Möglichkeit, die Überschrift und Aufzählung sowie den Punkt zu entfernen?  das in diesem deutschen Datum erscheint? Mein Code macht das nicht.

[/list]
Bearbeiten: Mir sind gerade Dinge wie text = re.sub(r" eingefallen. (@\[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)|^rt|http.+?" , "", text), aber Regex ist für riesig ineffizient Texte, nicht wahr?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Vergleichen Sie die Daten verschiedener Zeitzonen in ASP.NET aus der Datenbank

Last post by Anonymous « 10 Apr 2025, 05:53
Posted in C#

by Anonymous » 10 Apr 2025, 05:53 » in C#

Dies ist mein Code:
DateTime test = new DateTime(2025, 4, 9, 4, 0, 0); //instead of the it would be DateTime.UtcNow
TimeZoneInfo timeZoneInfo = getUserTimeZoneInfo(); //Converting to toronto time...

0 Replies

11 Views

Last post by Anonymous
10 Apr 2025, 05:53
Wie erstellen Sie effizient ein 2D -Array aus einer verschachtelten Liste verschiedener Längen?

Last post by Anonymous « 09 Sep 2025, 16:16
Posted in Python

by Anonymous » 09 Sep 2025, 16:16 » in Python

Ich habe eine Liste mit 2D -Arrays mit gleicher Anzahl von Zeilen, aber unterschiedlichen Spalten. Ich muss ein gepolstertes Array von Arrays mit gleicher Form erstellen. Mein aktueller Code ist...

0 Replies

1 Views

Last post by Anonymous
09 Sep 2025, 16:16
Qwidget zum Anzeigen von Text mit kleinen Bildern (Symbole/Emoticons)

Last post by Anonymous « 09 Mar 2025, 11:26
Posted in C++

by Anonymous » 09 Mar 2025, 11:26 » in C++

existiert ein solches Widget? Etiketten).

0 Replies

20 Views

Last post by Anonymous
09 Mar 2025, 11:26
Google -Material -Symbole, die als Text anstelle von Symbol angezeigt werden (Tailwindcss) [geschlossen]

Last post by Anonymous « 23 Apr 2025, 09:11
Posted in HTML

by Anonymous » 23 Apr 2025, 09:11 » in HTML

spielt das Wort Home als einfacher Text ab - nicht das tatsächliche Symbol.

im Körper:
home

Aber im Browser wird nur das Wort Home als einfacher Text angezeigt - nicht das tatsächliche Symbol....

0 Replies

15 Views

Last post by Anonymous
23 Apr 2025, 09:11
Google -Material -Symbole, die als Text anstelle von Symbol angezeigt werden (Tailwindcss) [geschlossen]

Last post by Anonymous « 23 Apr 2025, 09:11
Posted in CSS

by Anonymous » 23 Apr 2025, 09:11 » in CSS

spielt das Wort Home als einfacher Text ab - nicht das tatsächliche Symbol.

im Körper:
home

Aber im Browser wird nur das Wort Home als einfacher Text angezeigt - nicht das tatsächliche Symbol....

0 Replies

19 Views

Last post by Anonymous
23 Apr 2025, 09:11

Return to “Python”