Best Practices für den Umgang mit Login-CAPTCHA in Python RPA für die Migration älterer Daten (keine API)

Best Practices für den Umgang mit Login-CAPTCHA in Python RPA für die Migration älterer Daten (keine API) ⇐ Python

1 post • Page 1 of 1

Anonymous

Best Practices für den Umgang mit Login-CAPTCHA in Python RPA für die Migration älterer Daten (keine API)

Report
Quote

Post by Anonymous » 02 Dec 2025, 13:04

Ich arbeite derzeit an einem Datenmigration-Projekt mit einem Altsystem.
Wir müssen eine große Datenmenge extrahieren, um sie in eine neue Datenbank zu migrieren. Leider bietet dieses Legacy-System keine API oder direkten Datenbankzugriff. Daher besteht unsere einzige Möglichkeit darin, die Daten über die Weboberfläche mithilfe eines Python-Automatisierungsskripts (RPA) zu extrahieren.
Ich habe die Navigations- und Datenextraktionslogik mit Selenium/Python abgebildet, aber die Anmeldeseite ist durch ein CAPTCHA geschützt. Da es sich um einen automatisierten Migrationsprozess handelt, bleibt das Skript beim Authentifizierungsschritt hängen.
Meine Einschränkungen:

Ich kann das CAPTCHA auf der Serverseite nicht deaktivieren (Einschränkungen älterer Software).
Die Automatisierung muss stabil laufen, um Tausende von Datensätzen zu extrahieren.

Da ich die Sicherheit nicht rein per Code umgehen kann, was sind die Standardarchitekturmuster für dieses Szenario?

Sitzungswiederverwendung: Ist es möglich, sich einmal manuell anzumelden, die Cookies/Sitzung zu exportieren und sie für nachfolgende Ausführungen in den Python-Treiber einzufügen?
Human-in-the-Loop: Gibt es eine saubere Möglichkeit zum Anhalten das Selenium-Skript, einem Menschen erlauben, das CAPTCHA manuell im geöffneten Browserfenster zu lösen und dann die Automatisierung fortzusetzen?

Jeder Codeausschnitt oder Bibliotheksempfehlungen (z. B. zum Umgang mit Cookie-Persistenz in Selenium) wäre sehr dankbar.
Vielen Dank!

1764677094

Anonymous

Ich arbeite derzeit an einem Datenmigration-Projekt mit einem Altsystem.
Wir müssen eine große Datenmenge extrahieren, um sie in eine neue Datenbank zu migrieren. Leider bietet dieses Legacy-System keine API oder direkten Datenbankzugriff. Daher besteht unsere einzige Möglichkeit darin, die Daten über die Weboberfläche mithilfe eines Python-Automatisierungsskripts (RPA) zu extrahieren.
Ich habe die Navigations- und Datenextraktionslogik mit [b]Selenium/Python[/b] abgebildet, aber die Anmeldeseite ist durch ein CAPTCHA geschützt. Da es sich um einen automatisierten Migrationsprozess handelt, bleibt das Skript beim Authentifizierungsschritt hängen.
[b]Meine Einschränkungen:[/b]
[list]
[*]Ich kann das CAPTCHA auf der Serverseite nicht deaktivieren (Einschränkungen älterer Software).

[*]Die Automatisierung muss stabil laufen, um Tausende von Datensätzen zu extrahieren.

[/list]
Da ich die Sicherheit nicht rein per Code umgehen kann, was sind die Standardarchitekturmuster für dieses Szenario?
[list]
[*][b]Sitzungswiederverwendung:[/b] Ist es möglich, sich einmal manuell anzumelden, die Cookies/Sitzung zu exportieren und sie für nachfolgende Ausführungen in den Python-Treiber einzufügen?

[*][b]Human-in-the-Loop:[/b] Gibt es eine saubere Möglichkeit zum Anhalten das Selenium-Skript, einem Menschen erlauben, das CAPTCHA manuell im geöffneten Browserfenster zu lösen und dann die Automatisierung fortzusetzen?

[/list]
Jeder Codeausschnitt oder Bibliotheksempfehlungen (z. B. zum Umgang mit Cookie-Persistenz in Selenium) wäre sehr dankbar.
Vielen Dank!

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Best Practices für die Umsetzung von Fristen und Wiederholungen für GRPC [geschlossen]

Last post by Anonymous « 06 Feb 2025, 02:33
Posted in C#

by Anonymous » 06 Feb 2025, 02:33 » in C#

Ich arbeite an einem älteren GRPC -Code und bin neu im Raum. Der Server hat einige Probleme, auf Anfragen vor Ablauf der Frist zu reagieren (Zeitüberschreitung) und ich versuche, das Problem...

0 Replies

46 Views

Last post by Anonymous
06 Feb 2025, 02:33
Best Practices für die Auswahl von Primärschlüsselkombinationen aus mehreren Spalten

Last post by Anonymous « 04 Mar 2025, 08:38
Posted in Python

by Anonymous » 04 Mar 2025, 08:38 » in Python

Ich arbeite in Azure Databricks mit einem großen PYSPARK -Datenframe mit 170 Spalten. Ich muss die bestmögliche Kombination von 2-3 Spalten als Primärschlüssel identifizieren und sicherstellen, dass...

0 Replies

49 Views

Last post by Anonymous
04 Mar 2025, 08:38
Best Practices für die Verwendung aktualisierter Bibliotheksversionen in Quarkus -Projekten [geschlossen]

Last post by Anonymous « 20 Mar 2025, 14:20
Posted in Java

by Anonymous » 20 Mar 2025, 14:20 » in Java

Ich möchte Quarkus (mit Gradle) für ein Greenfield-ish-Projekt verwenden und eine Frage zur Verwaltung von Bibliotheksversionen über das Projekt by Quarkus habe. Zum Beispiel io.quarkus:...

0 Replies

42 Views

Last post by Anonymous
20 Mar 2025, 14:20
Best Practices für die Reinigung eines gleichzeitigen Abschieds von Hintergrundjobs in einem Dateigenerierungsdienst [ge

Last post by Anonymous « 29 Apr 2025, 12:41
Posted in C#

by Anonymous » 29 Apr 2025, 12:41 » in C#

I'm building a microservice that handles asynchronous file generation with the following flow:

POST request - Creates a file generation job
Stores the job in a ConcurrentDictionary
Returns a job...

0 Replies

35 Views

Last post by Anonymous
29 Apr 2025, 12:41
Best Practices für zirkuläre Verschiebungs- (Rotations-)Operationen in C++

Last post by Guest « 03 Jan 2025, 10:38
Posted in C++

by Guest » 03 Jan 2025, 10:38 » in C++

Linke und rechte Verschiebungsoperatoren (>) sind in C++ bereits verfügbar.
Ich konnte jedoch nicht herausfinden, wie ich zirkuläre Verschiebungs- oder Rotationsoperationen durchführen kann.

Wie...

0 Replies

56 Views

Last post by Guest
03 Jan 2025, 10:38

Return to “Python”