Die Standardkonfiguration mit hadoop-aws 3.4.1 funktioniert, erfordert aber das AWS SDK Bundle. Diese einzelne Abhängigkeit ist über 530 MB groß, was die Größe der Bereitstellung meiner Anwendung erheblich erhöht.
Mein Ziel ist es, einen minimalen Satz von AWS SDK v2-Abhängigkeiten zu finden, die von der hadoop-aws-Bibliothek für die Verbindung mit S3 benötigt werden, ohne das gesamte Paket einzubeziehen. Mir ist das offene Problem in Sparks Jira bekannt, aber es gibt noch keine Lösung.
Ich habe versucht, nur com.amazonaws:aws-java-sdk-s3 und andere Unterabhängigkeiten einzubeziehen, aber ich habe immer Folgendes gedrückt:
Code: Select all
Py4JJavaError: An error occurred while calling o83.parquet.
: java.lang.NoClassDefFoundError:
software/amazon/awssdk/utils/builder/ToCopyableBuilder
Mobile version