Wir müssen eine große Datenmenge extrahieren, um sie in eine neue Datenbank zu migrieren. Leider bietet dieses Legacy-System keine API oder direkten Datenbankzugriff. Daher besteht unsere einzige Möglichkeit darin, die Daten über die Weboberfläche mithilfe eines Python-Automatisierungsskripts (RPA) zu extrahieren.
Ich habe die Navigations- und Datenextraktionslogik mit Selenium/Python abgebildet, aber die Anmeldeseite ist durch ein CAPTCHA geschützt. Da es sich um einen automatisierten Migrationsprozess handelt, bleibt das Skript beim Authentifizierungsschritt hängen.
Meine Einschränkungen:
- Ich kann das CAPTCHA auf der Serverseite nicht deaktivieren (Einschränkungen älterer Software).
- Die Automatisierung muss stabil laufen, um Tausende von Datensätzen zu extrahieren.
- Sitzungswiederverwendung: Ist es möglich, sich einmal manuell anzumelden, die Cookies/Sitzung zu exportieren und sie für nachfolgende Ausführungen in den Python-Treiber einzufügen?
- Human-in-the-Loop: Gibt es eine saubere Möglichkeit zum Anhalten das Selenium-Skript, einem Menschen erlauben, das CAPTCHA manuell im geöffneten Browserfenster zu lösen und dann die Automatisierung fortzusetzen?
Vielen Dank!
Mobile version