Warum schreibt meine Apache Beam Dataflow-Pipeline nicht in BigQuery? - Programmiererforum

Warum schreibt meine Apache Beam Dataflow-Pipeline nicht in BigQuery? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Warum schreibt meine Apache Beam Dataflow-Pipeline nicht in BigQuery?

Post by Anonymous » 24 Dec 2024, 09:43

Ich arbeite an einer Apache Beam-Pipeline, die Daten verarbeitet und in BigQuery schreibt. Die Pipeline funktioniert einwandfrei, wenn ich DirectRunner verwende, aber wenn ich zum DataflowRunner wechsle, wird sie ohne Fehler oder Warnungen abgeschlossen, fügt aber keine Zeilen in BigQuery ein. Außerdem sehe ich große übrig gebliebene Dateien im temporären Verzeichnis meines Cloud Storage-Buckets (gs://my-bucket/temp/bq_load/...), und in der Zieltabelle werden keine Daten angezeigt.
Hier ist die Pipeline-Struktur:
worker_options.sdk_container_image = '...'

with beam.Pipeline(options=pipeline_options) as p:
processed_data = (
p
| "ReadFiles" >> beam.Create(FILE_LIST)
| "ProcessFiles" >> beam.ParDo(ProcessAvroFileDoFn())
| "WriteToBigQuery" >> beam.io.WriteToBigQuery(
table=f"{PROJECT_ID}:{DATASET_ID}.{TABLE_ID}",
schema=BQ_SCHEMA,
write_disposition=beam.io.BigQueryDisposition.WRITE_APPEND,
create_disposition=beam.io.BigQueryDisposition.CREATE_IF_NEEDED
)
)

Wichtige Beobachtungen:

Die Pipeline ist mit DirectRunner erfolgreich und schreibt Daten ohne Probleme in BigQuery.
Mit dem DataflowRunner wird die Pipeline ohne Fehler oder Warnungen abgeschlossen, aber: Es werden keine Zeilen in BigQuery geschrieben und große temporäre Dateien verbleiben im Bucket (z. B. bq_load/...).
Die verarbeiteten Daten sind gültiges NDJSON.
Das BigQuery-Schema entspricht der Datenstruktur.

Was ich versucht habe:

Bei der Überprüfung der verbleibenden temporären Dateien habe ich die temporäre Datei heruntergeladen und überprüft, ob sie gültige NDJSON-Zeilen enthält. Das manuelle Hochladen dieser Datei in BigQuery mit dem bq-Load-Befehl funktioniert einwandfrei.
Testen mit anderen Datensätzen:
Ich habe viele verschiedene Eingaben ausprobiert , aber das Problem besteht weiterhin.
Dataflow-Protokolle prüfen:
Ich habe mir die Protokolle in der Dataflow-Überwachungskonsole angesehen, aber keine Fehler gefunden oder Warnungen.
Anderes Dienstkonto: Ein Dienstkonto mit unzureichenden Datenflussberechtigungen löst einen Fehler aus. Es scheint daher unwahrscheinlich, dass das Problem in den Berechtigungen für die Arbeiter liegt.

Ich habe einen anderen Thread dazu gesehen (Can Ich kann Apache Beam nicht dazu bringen, Ausgaben in BigQuery zu schreiben, wenn DataflowRunner verwendet wird), aber dort wurde nichts gelöst.

1735029810

Anonymous

Ich arbeite an einer Apache Beam-Pipeline, die Daten verarbeitet und in BigQuery schreibt. Die Pipeline funktioniert einwandfrei, wenn ich DirectRunner verwende, aber wenn ich zum DataflowRunner wechsle, wird sie ohne Fehler oder Warnungen abgeschlossen, fügt aber keine Zeilen in BigQuery ein. Außerdem sehe ich große übrig gebliebene Dateien im temporären Verzeichnis meines Cloud Storage-Buckets (gs://my-bucket/temp/bq_load/...), und in der Zieltabelle werden keine Daten angezeigt.
Hier ist die Pipeline-Struktur:
worker_options.sdk_container_image = '...'

with beam.Pipeline(options=pipeline_options) as p:
processed_data = (
p
| "ReadFiles" >> beam.Create(FILE_LIST)
| "ProcessFiles" >> beam.ParDo(ProcessAvroFileDoFn())
| "WriteToBigQuery" >> beam.io.WriteToBigQuery(
table=f"{PROJECT_ID}:{DATASET_ID}.{TABLE_ID}",
schema=BQ_SCHEMA,
write_disposition=beam.io.BigQueryDisposition.WRITE_APPEND,
create_disposition=beam.io.BigQueryDisposition.CREATE_IF_NEEDED
)
)


Wichtige Beobachtungen:
[list]
[*]Die Pipeline ist mit DirectRunner erfolgreich und schreibt Daten ohne Probleme in BigQuery.
Mit dem DataflowRunner wird die Pipeline ohne Fehler oder Warnungen abgeschlossen, aber: Es werden keine Zeilen in BigQuery geschrieben und große temporäre Dateien verbleiben im Bucket (z. B. bq_load/...).
[*]Die verarbeiteten Daten sind gültiges NDJSON.
[*]Das BigQuery-Schema entspricht der Datenstruktur.
[/list]
Was ich versucht habe:
[list]
[*]Bei der Überprüfung der verbleibenden temporären Dateien habe ich die temporäre Datei heruntergeladen und überprüft, ob sie gültige NDJSON-Zeilen enthält. Das manuelle Hochladen dieser Datei in BigQuery mit dem bq-Load-Befehl funktioniert einwandfrei.

[*]Testen mit anderen Datensätzen:
Ich habe viele verschiedene Eingaben ausprobiert , aber das Problem besteht weiterhin.

[*]Dataflow-Protokolle prüfen:
Ich habe mir die Protokolle in der Dataflow-Überwachungskonsole angesehen, aber keine Fehler gefunden oder Warnungen.

[*]Anderes Dienstkonto: Ein Dienstkonto mit unzureichenden Datenflussberechtigungen löst einen Fehler aus. Es scheint daher unwahrscheinlich, dass das Problem in den Berechtigungen für die Arbeiter liegt.

[/list]
Ich habe einen anderen Thread dazu gesehen (Can Ich kann Apache Beam nicht dazu bringen, Ausgaben in BigQuery zu schreiben, wenn DataflowRunner verwendet wird), aber dort wurde nichts gelöst.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Kein Attribut 'TableReference' in Apache Beam beim Versuch, in BigQuery zu schreiben

Last post by Anonymous « 27 Feb 2025, 10:32
Posted in Python

by Anonymous » 27 Feb 2025, 10:32 » in Python

Beim Versuch, diese Pipeline auszuführen, erhalte ich diese Ausnahme:
Exception has occurred: AttributeError module 'apache_beam.io.gcp.internal.clients.bigquery' has no attribute 'TableReference'...

0 Replies

9 Views

Last post by Anonymous
27 Feb 2025, 10:32
Google BigQuery - Streaming von Daten in BigQuery

Last post by Anonymous « 28 May 2025, 11:56
Posted in Java

by Anonymous » 28 May 2025, 11:56 » in Java

Ich benutze Google BigQuery für mein Projekt
Im Moment versuche ich, eine neue Zeile in BQ zu fügen, basierend auf diesem
private void insertRowsToBQ(MyCustomObject data) {
String datasetName =...

0 Replies

1 Views

Last post by Anonymous
28 May 2025, 11:56
Apache Beam DoFn Init: Warum werden Init-Werte bundleübergreifend zurückgesetzt?

Last post by Anonymous « 23 Dec 2024, 18:21
Posted in Python

by Anonymous » 23 Dec 2024, 18:21 » in Python

Ich versuche, dieses Beispiel für einen gemeinsamen Cache zu verstehen:
Ich habe diesen Zähler zum hinzugefügt init :
> self.cache_load_counter = Metrics.counter(self.__class__, 'cache_loads')

Und...

0 Replies

33 Views

Last post by Anonymous
23 Dec 2024, 18:21
Treten Sie in Apache Beam einer sich schnell und langsam verändernden, unbegrenzten Quelle bei

Last post by Guest « 13 Jan 2025, 16:05
Posted in Java

by Guest » 13 Jan 2025, 16:05 » in Java

Ich habe zwei unbegrenzte Quellen (pubsub):

Hauptquelle: gibt häufig Werte aus
Sekundärquelle: sendet ein Ereignis, das uns anweist, eine große Abfragetabelle zu lesen, da eine Änderung in der...

0 Replies

17 Views

Last post by Guest
13 Jan 2025, 16:05
Die obere Pipeline wird nicht in der Nähe des Bildes angezeigt. Im oberen Bild Pipeline Python 3.x

Last post by Anonymous « 11 Apr 2025, 12:33
Posted in Python

by Anonymous » 11 Apr 2025, 12:33 » in Python

** Ich habe Errores im Code. Ich weiß nicht, was ich tun soll. def procesar_imagenes_html(doc):

script_dir = os.path.dirname(os.path.abspath(__file__))
attachments_dir = os.path.join(script_dir,...

0 Replies

16 Views

Last post by Anonymous
11 Apr 2025, 12:33

Return to “Python”