Google Cloud Run – Zufällige 504-HTTP-Fehler

Google Cloud Run – Zufällige 504-HTTP-Fehler ⇐ Java

1 post • Page 1 of 1

Anonymous

Google Cloud Run – Zufällige 504-HTTP-Fehler

Report
Quote

Post by Anonymous » 14 Jan 2026, 19:45

Wir führen derzeit eine Java 11-Anwendung auf Cloud Run mit Jetty 10 aus und sind auf ein ungewöhnliches Problem gestoßen. Obwohl der Dienst im Allgemeinen reibungslos funktioniert, ist uns aufgefallen, dass ein kleiner Teil der POST-Anfragen, etwa 1.000 von 3.000.000 im letzten Monat verarbeiteten, auf mysteriöse Weise fehlschlägt. Diese fehlgeschlagenen Anfragen führen entweder zu einer fehlerhaften 503-Antwort oder einem 504-Gateway-Timeout-HTTP-Fehler, wobei es sich in der Mehrzahl um 504-Fehler handelt. Seltsamerweise scheinen diese Anfragen im Ruhezustand zu bleiben, ohne von der Instanz zur Ausführung abgeholt zu werden. Letztendlich werden sie erfolgreich auf einer anderen Instanz ausgeführt. Darüber hinaus haben diese fehlgeschlagenen Anfragen dieselbe Instanz-ID (es gibt einige erfolgreiche Anfragen für diese Instanz unter den fehlgeschlagenen, was noch bizarrer ist).
Bezüglich der 503 fehlerhaften Antwortfehler haben wir die Fehlerbehebungsdokumentation von Google konsultiert und Speicherprobleme und Zeitüberschreitungen auf Anwendungsebene ausgeschlossen. Trotz unserer Untersuchung haben wir keine Downstream-Netzwerkengpässe festgestellt und unsere Anfragerate bleibt mit durchschnittlich 15 Anfragen pro Sekunde deutlich unter den von Google festgelegten Grenzwerten.
Bei den 504-Gateway-Timeout-Fehlern zeigt die Meldung an, dass die Anfrage das maximale Anfrage-Timeout erreicht hat, es scheint jedoch, dass diese Anfragen nie tatsächlich die Instanz erreichen, da sie keine Protokolle erzeugen, die auf die Ausführung hinweisen.
Unten finden Sie einige entsprechende Screenshots.

Um diese Probleme zu beheben, haben wir Es wurden mehrere Schritte unternommen:

Konfigurierte Bereitschafts- und Lebendigkeitsprüfungen, um den Instanzzustand zu bestimmen, die im Allgemeinen gut funktioniert haben. In einer „fehlerhaften“ Instanz erkannte die Liveness-Prüfung nach einer Stunde ein Problem, was zur Beendigung dieser Instanz führte.
Überwachte CPU- und Speicherauslastung, die beide in Ordnung zu sein scheinen, wobei die CPU konstant unter 50 % lag und keine Fehler aufgrund von nicht genügend Arbeitsspeicher auftraten.
Sichergestellte ordnungsgemäße Schließung von Ressourcen, wie Google Cloud-Dateispeicher und Redis-Client-Verbindungen, um Ressourcenlecks zu verhindern.
Bestätigte Compliance Mit Google Cloud API-Kontingenten stellen wir sicher, dass wir keine Grenzen erreichen.

Cloud Run-Konfiguration

Code: Select all

CPU allocation: CPU is always allocated.
Startup CPU boost: Enabled
Concurrency: 80
Request timeout: 1800 seconds
Execution environment: Second generation
Autoscaling: Enabled
Min instances: 12
Max instances: 100
CPU Limit: 4
Memory Limit: 8GB
Session Affinity: Enabled
HTTP2: Disabled

Darüber hinaus verwenden wir einen VPC-Connector, um den Datenverkehr nur an private IPs weiterzuleiten, und wir bleiben innerhalb aller angegebenen Schwellenwerte.
Wir würden uns sehr über Ihre Erkenntnisse zu den möglichen Ursachen dieser Probleme freuen.
Mit freundlichen Grüßen.

1768416333

Anonymous

Wir führen derzeit eine Java 11-Anwendung auf Cloud Run mit Jetty 10 aus und sind auf ein ungewöhnliches [url=viewtopic.php?t=26065]Problem[/url] gestoßen. Obwohl der Dienst im Allgemeinen reibungslos funktioniert, ist uns aufgefallen, dass ein kleiner Teil der POST-Anfragen, etwa 1.000 von 3.000.000 im letzten Monat verarbeiteten, auf mysteriöse Weise fehlschlägt. Diese fehlgeschlagenen Anfragen führen entweder zu einer fehlerhaften 503-Antwort oder einem 504-Gateway-Timeout-HTTP-Fehler, wobei es sich in der Mehrzahl um 504-Fehler handelt. Seltsamerweise scheinen diese Anfragen im Ruhezustand zu bleiben, ohne von der Instanz zur Ausführung abgeholt zu werden. Letztendlich werden sie erfolgreich auf einer anderen Instanz ausgeführt. [b]Darüber hinaus haben diese fehlgeschlagenen Anfragen dieselbe Instanz-ID[/b] (es gibt einige erfolgreiche Anfragen für diese Instanz unter den fehlgeschlagenen, was noch bizarrer ist).
Bezüglich der 503 fehlerhaften Antwortfehler haben wir die Fehlerbehebungsdokumentation von Google konsultiert und Speicherprobleme und Zeitüberschreitungen auf Anwendungsebene ausgeschlossen. Trotz unserer Untersuchung haben wir keine Downstream-Netzwerkengpässe festgestellt und unsere Anfragerate bleibt mit durchschnittlich 15 Anfragen pro Sekunde deutlich unter den von Google festgelegten Grenzwerten.
Bei den 504-Gateway-Timeout-Fehlern zeigt die Meldung an, dass die Anfrage das maximale Anfrage-Timeout erreicht hat, es scheint jedoch, dass diese Anfragen nie tatsächlich die Instanz erreichen, da sie keine Protokolle erzeugen, die auf die Ausführung hinweisen.
Unten finden Sie einige entsprechende Screenshots.
[img]https://i.sstatic.net/v8x9yPEo.png[/img]

[img]https://i.sstatic.net/zknI3O5n.png[/img]

Um diese Probleme zu beheben, haben wir Es wurden mehrere Schritte unternommen:
[list]
[*]Konfigurierte Bereitschafts- und Lebendigkeitsprüfungen, um den Instanzzustand zu bestimmen, die im Allgemeinen gut funktioniert haben. In einer „fehlerhaften“ Instanz erkannte die Liveness-Prüfung nach einer Stunde ein Problem, was zur Beendigung dieser Instanz führte.
[*]Überwachte CPU- und Speicherauslastung, die beide in Ordnung zu sein scheinen, wobei die CPU konstant unter 50 % lag und keine Fehler aufgrund von nicht genügend Arbeitsspeicher auftraten.
[*]Sichergestellte ordnungsgemäße Schließung von Ressourcen, wie Google Cloud-Dateispeicher und Redis-Client-Verbindungen, um Ressourcenlecks zu verhindern.
[*]Bestätigte Compliance Mit Google Cloud API-Kontingenten stellen wir sicher, dass wir keine Grenzen erreichen.
[/list]
[b]Cloud Run-Konfiguration[/b]
[code]CPU allocation: CPU is always allocated.
Startup CPU boost: Enabled
Concurrency: 80
Request timeout: 1800 seconds
Execution environment: Second generation
Autoscaling: Enabled
Min instances: 12
Max instances: 100
CPU Limit: 4
Memory Limit: 8GB
Session Affinity: Enabled
HTTP2: Disabled
[/code]
Darüber hinaus verwenden wir einen VPC-Connector, um den Datenverkehr nur an private IPs weiterzuleiten, und wir bleiben innerhalb aller angegebenen Schwellenwerte.
Wir würden uns sehr über Ihre Erkenntnisse zu den möglichen Ursachen dieser Probleme freuen.
Mit freundlichen Grüßen.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Zufällige 503/504-Fehler in Google Cloud Run (Java)

Last post by Guest « 15 Jan 2025, 16:16
Posted in Java

by Guest » 15 Jan 2025, 16:16 » in Java

Wir führen derzeit eine Java 17-App auf Cloud Run aus und sind auf ein ungewöhnliches Problem gestoßen. Während der Dienst normalerweise reibungslos funktioniert, schlägt ein kleiner Prozentsatz der...

0 Replies

65 Views

Last post by Guest
15 Jan 2025, 16:16
HTTP-POST von Apps Script zur Google Cloud Run-Funktion

Last post by Anonymous « 21 Nov 2025, 02:25
Posted in Python

by Anonymous » 21 Nov 2025, 02:25 » in Python

Ich bin ein ziemlicher Anfänger in der Google Cloud Platform und möchte Folgendes lösen:
Ich möchte mithilfe von Apps Script eine HTTP-POST-Anfrage (mit JSON-Daten) an eine Cloud Run Function senden,...

0 Replies

17 Views

Last post by Anonymous
21 Nov 2025, 02:25
So laden Sie Dateien in Teilen in Google Cloud Storage mit der Anfrage von Fastapi () in den Google Cloud -Speicher hoch

Last post by Anonymous « 01 Feb 2025, 08:45
Posted in Python

by Anonymous » 01 Feb 2025, 08:45 » in Python

Ich habe einen Datenfluss in einer Fastapi -Anwendung, bei der ein potenziell sehr großer HTTP -Put -Körper hochgeladen wird, und ich muss dies auf Google Cloud -Speicher streamen. Ich verwende die...

0 Replies

89 Views

Last post by Anonymous
01 Feb 2025, 08:45
Fehler ausführen FAISS auf Google Cloud Run, jedoch nicht auf Lokal

Last post by Anonymous « 12 May 2025, 02:13
Posted in Python

by Anonymous » 12 May 2025, 02:13 » in Python

Ich erhalte diesen Fehler, wenn ich versuche, auf die nicht -faiss_index auf die nicht -faiss_index zugreifen zu können. Ich leite Faiss-CPU Python Version 1.10.0. Dies funktioniert nicht aus...

0 Replies

40 Views

Last post by Anonymous
12 May 2025, 02:13
Maximale Leistung bei Google Cloud Run für ein einzelnes Thread-Python-Skript erzielen

Last post by Anonymous « 15 Nov 2025, 23:24
Posted in Python

by Anonymous » 15 Nov 2025, 23:24 » in Python

Ich verwende einen Google Cloud Run-Dienst, der einen API-Endpunkt bereitstellt, der schwere Rechenaufgaben ausführt (CPU-gebunden).
Die API wird nur gelegentlich aufgerufen und im Moment wird es nie...

0 Replies

19 Views

Last post by Anonymous
15 Nov 2025, 23:24

Return to “Java”