by Anonymous » 04 Mar 2025, 05:28
Ich habe eine serverseitige Anwendung, die eine große Anzahl von Bild-URLs ausgeführt und die Bilder von diesen URLs auf S3 hochgeladen werden.
Die Dateien werden über HTTP serviert. Ich lade sie mit InputStream herunter. Ich erhalte von einer httpurlConnection mit der GetInputStream -Methode. Ich überlaste den Eingabestream an AWS S3 Client PutObject Methode (AWS Java SDK V1), um den Stream auf S3 hochzuladen. So weit so gut. < /P>
Ich versuche, eine neue externe Bilddatenquelle einzuführen. Das
Problem mit dieser Datenquelle besteht darin, dass der HTTP-Server, der diese Bilder serviert, keinen Inhaltslänge HTTP-Header zurückgibt. Dies bedeutet, dass ich nicht sagen kann, wie viele Bytes das Bild sein wird. Dies ist eine Nummer, die vom AWS S3-Client zur Validierung des Bildes erforderlich ist. Von dort aus S3. < /p>
Dies sind keine großen Dateien, aber ich habe viele davon. < /p>
Da ich mit vielen kleinen Dateien zu tun habe, vermute ich, dass Probleme mit der Parallelität "behoben" werden könnten, wenn ich mich auf die Parallelität der Mehrfachdateien anstelle einer einzelnen Datei konzentriere. Anstatt gleichzeitig die Teile derselben Datei herunterzuladen und hochzuladen, werde ich meine IO effektiv eine Datei herunterladen, während ich eine andere hochladet.
Ich habe eine serverseitige Anwendung, die eine große Anzahl von Bild-URLs ausgeführt und die Bilder von diesen URLs auf S3 hochgeladen werden.
Die Dateien werden über HTTP serviert. Ich lade sie mit InputStream herunter. Ich erhalte von einer httpurlConnection mit der GetInputStream -Methode. Ich überlaste den Eingabestream an AWS S3 Client PutObject Methode (AWS Java SDK V1), um den Stream auf S3 hochzuladen. So weit so gut. < /P>
Ich versuche, eine neue externe Bilddatenquelle einzuführen. Das [url=viewtopic.php?t=15738]Problem[/url] mit dieser Datenquelle besteht darin, dass der HTTP-Server, der diese Bilder serviert, keinen Inhaltslänge HTTP-Header zurückgibt. Dies bedeutet, dass ich nicht sagen kann, wie viele Bytes das Bild sein wird. Dies ist eine Nummer, die vom AWS S3-Client zur Validierung des Bildes erforderlich ist. Von dort aus S3. < /p>
Dies sind keine großen Dateien, aber ich habe viele davon. < /p>
Da ich mit vielen kleinen Dateien zu tun habe, vermute ich, dass Probleme mit der Parallelität "behoben" werden könnten, wenn ich mich auf die Parallelität der Mehrfachdateien anstelle einer einzelnen Datei konzentriere. Anstatt gleichzeitig die Teile derselben Datei herunterzuladen und hochzuladen, werde ich meine IO effektiv eine Datei herunterladen, während ich eine andere hochladet.