Wie kann ich ohne das große AWS SDK v2-Bundle eine Verbindung zu S3 herstellen?Java

Java-Forum
Anonymous
 Wie kann ich ohne das große AWS SDK v2-Bundle eine Verbindung zu S3 herstellen?

Post by Anonymous »

Ich versuche, eine Datei aus S3 mit PySpark 4.0.1 und dem S3AFileSystem zu lesen.
Die Standardkonfiguration mit hadoop-aws 3.4.1 funktioniert, erfordert aber das AWS SDK Bundle. Diese einzelne Abhängigkeit ist über 530 MB groß, was die Größe der Bereitstellung meiner Anwendung erheblich erhöht.
Mein Ziel ist es, einen minimalen Satz von AWS SDK v2-Abhängigkeiten zu finden, die von der hadoop-aws-Bibliothek für die Verbindung mit S3 benötigt werden, ohne das gesamte Paket einzubeziehen. Mir ist das offene Problem in Sparks Jira bekannt, aber es gibt noch keine Lösung.
Ich habe versucht, nur com.amazonaws:aws-java-sdk-s3 und andere Unterabhängigkeiten einzubeziehen, aber ich habe immer Folgendes gedrückt:

Code: Select all

Py4JJavaError: An error occurred while calling o83.parquet.
: java.lang.NoClassDefFoundError:
software/amazon/awssdk/utils/builder/ToCopyableBuilder
Hat jemand erfolgreich den Mindestsatz an Artefakten identifiziert, der für einen grundlegenden s3a://-Lese-/Schreibvorgang mit Spark erforderlich ist?

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post