Entfernen Sie Nicht-Englisch, behalten Sie Zahlen, Satzzeichen und Emojis bei, indem Sie Polars-Regex-Ausdrücke verwende

Entfernen Sie Nicht-Englisch, behalten Sie Zahlen, Satzzeichen und Emojis bei, indem Sie Polars-Regex-Ausdrücke verwende ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Entfernen Sie Nicht-Englisch, behalten Sie Zahlen, Satzzeichen und Emojis bei, indem Sie Polars-Regex-Ausdrücke verwende

Report
Quote

Post by Anonymous » 12 Oct 2025, 18:15

Ich habe Python-Code für die Aufgabe.

Code: Select all

import re
import string

emoji_pat = '[\U0001F300-\U0001F64F\U0001F680-\U0001F6FF\u2600-\u26FF\u2700-\u27BF]'
shrink_whitespace_reg = re.compile(r'\s{2,}')

def clean_text(raw_text):
reg = re.compile(r'({})|[^a-zA-Z0-9 -{}]'.format(emoji_pat,r"\\".join(list(string.punctuation)))) # line a
result = reg.sub(lambda x: ' {} '.format(x.group(1)) if x.group(1) else ' ', raw_text)
return shrink_whitespace_reg.sub(' ', result).lower()

Ich habe versucht, die Polaren polars.internals.series.StringNameSpace.contains
zu verwenden

Code: Select all

But I got an exceptions
ComputeError: regex error: Syntax(

regex parse error:
([🌀-🙏🚀-🛿☀-⛿✀-➿])|[^a-zA-Z0-9 -!\\"\\#\\$\\%\\&\\'\\(\\)\\*\\+\\,\\-\\.\\/\\:\\;\\\\?\\@\\[\\\\\]\\^\\_\\`\\{\\}\\~]
^^
error: unclosed character class

Beispiele mit Chinesisch, Englisch und Unbekanntem

Code: Select all

texts = ['水虫対策にはコレが一番ですね','🙏🚀','I love polars!-ã„ã¤ã‚‚ã•ã‚‰ã•ã‚‰.','So good 👍.']
df = pd.DataFrame({'text':texts})

d = df.text.apply(clean_text)

erwartet:

Code: Select all

0
1                🙏 🚀
2    i love polars! .
3         so good 👍 .
Name: text, dtype: object

Noch eine Frage:
Ist es schneller als die Verwendung von re?

1760285704

Anonymous

Ich habe Python-Code für die Aufgabe.
[code]import re
import string

emoji_pat = '[\U0001F300-\U0001F64F\U0001F680-\U0001F6FF\u2600-\u26FF\u2700-\u27BF]'
shrink_whitespace_reg = re.compile(r'\s{2,}')

def clean_text(raw_text):
reg = re.compile(r'({})|[^a-zA-Z0-9 -{}]'.format(emoji_pat,r"\\".join(list(string.punctuation)))) # line a
result = reg.sub(lambda x: ' {} '.format(x.group(1)) if x.group(1) else ' ', raw_text)
return shrink_whitespace_reg.sub(' ', result).lower()
[/code]
Ich habe versucht, die Polaren polars.internals.series.StringNameSpace.contains
zu verwenden[code]But I got an exceptions
ComputeError: regex error: Syntax(

regex parse error:
([🌀-🙏🚀-🛿☀-⛿✀-➿])|[^a-zA-Z0-9 -!\\"\\#\\$\\%\\&\\'\\(\\)\\*\\+\\,\\-\\.\\/\\:\\;\\\\?\\@\\[\\\\\]\\^\\_\\`\\{\\}\\~]
^^
error: unclosed character class
[/code]
Beispiele mit Chinesisch, Englisch und Unbekanntem
[code]texts = ['水虫対策にはコレが一番ですね','🙏🚀','I love polars!-ã„ã¤ã‚‚ã•ã‚‰ã•ã‚‰.','So good 👍.']
df = pd.DataFrame({'text':texts})

d = df.text.apply(clean_text)
[/code]
erwartet:
[code]0
1                🙏 🚀
2    i love polars! .
3         so good 👍 .
Name: text, dtype: object
[/code]
Noch eine Frage:
Ist es schneller als die Verwendung von re?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Verwenden Sie Emojis als Favicon auf Websites

Last post by Guest « 14 Jan 2025, 07:54
Posted in HTML

by Guest » 14 Jan 2025, 07:54 » in HTML

Emojis sind großartig, also habe ich darüber nachgedacht, wie ich eines mit dem Link-Tag als Favicon hinzufügen könnte.

Eine mögliche Lösung:

Ich habe in diesem Blogbeitrag hier einen möglichen...

0 Replies

31 Views

Last post by Guest
14 Jan 2025, 07:54
Der Telethon-Client sendet keine Premium-Emojis

Last post by Guest « 03 Jan 2025, 16:39
Posted in Python

by Guest » 03 Jan 2025, 16:39 » in Python

Ich muss eine Nachricht mit Premium-Emoji an eine bestimmte Entität senden, die den Telethon-Client verwendet.
Das mit dem Client verbundene Telegram-Konto verfügt über ein aktives...

0 Replies

37 Views

Last post by Guest
03 Jan 2025, 16:39
Ist die Zeilenreihenfolge bei der Verwendung von polars.scan_csv und polars.scan_parquet mit der Liste der Dateien garan

Last post by Anonymous « 11 Jul 2025, 17:45
Posted in Python

by Anonymous » 11 Jul 2025, 17:45 » in Python

Wenn ich eine Liste von Dateien habe, l = mit den Größen S1, S2, ..., Sn und ich erstelle einen df mit df = pl.scan_csv (l, ...) oder df = pl.Scan_Parquet (l, l. d.h. ?

0 Replies

31 Views

Last post by Anonymous
11 Jul 2025, 17:45
So überprüfen Sie, ob die Zeichenfolge nur Englisch enthält

Last post by Anonymous « 04 Dec 2025, 09:56
Posted in C#

by Anonymous » 04 Dec 2025, 09:56 » in C#

Ich habe eine Zeichenfolge, die Werte enthält wie:
string str = Abhigyan Prakash,Primeshow,NewsPoint,NCP,Inflation,सरकार,राहुल,प्राइम शो,न्यूजप्वाइंट,कमजोर,एनसीपी,अभिज्ञान प्रकाश,Rahul ;

Ich habe...

0 Replies

4 Views

Last post by Anonymous
04 Dec 2025, 09:56
RSS-Veröffentlichungstermine – sollte das auf Englisch sein?

Last post by Anonymous « 23 Dec 2024, 13:00
Posted in C#

by Anonymous » 23 Dec 2024, 13:00 » in C#

Ich erstelle RSS-Elemente. Ich habe eine Spalte namens date_published, die DateTime-Spalte in der MS SQL-Datenbank. z.B. es enthält „2011-05-04 15:19:05.630“

Unten ist das C#-Code-Datum aufgeführt,...

0 Replies

53 Views

Last post by Anonymous
23 Dec 2024, 13:00

Return to “Python”