Problem mit geteilten Größenparametern des Tensorflow-Datensatzes: Das lokale Rendezvous wird mit dem Status abgebrochen

Problem mit geteilten Größenparametern des Tensorflow-Datensatzes: Das lokale Rendezvous wird mit dem Status abgebrochen ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Problem mit geteilten Größenparametern des Tensorflow-Datensatzes: Das lokale Rendezvous wird mit dem Status abgebrochen

Post by Guest » 06 Jan 2025, 22:44

Ziemlich neu mit Datengenerator und Datensatz von Tensorflow. Ich habe Probleme mit der Größenanpassung von Batch, Epochen und Schritten ... Ich kann mir nicht vorstellen, wie man den Fehler „Lokales Rendezvous wird mit Status abgebrochen: OUT_OF_RANGE: Ende der Sequenz“ beseitigt.
I Versuchen Sie es mit der Größe eines vom Datengenerator aufgerufenen Teils meiner Daten und versuchen Sie es mit der vollständigen Größe meines gesamten Datensatzes und der Größe des geteilten Datensatzes, aber niemand scheint zu funktionieren.
Hier ein vereinfachter Code von mein letzter Versuch

Code: Select all

def data_generator(df, chunk_size):

total_number_sample = 10000

for start_idx in range(1, total_number_sample , chunk_size):

end_idx = start_idx + chunk_size-1

df_subset = df.where(col('idx').between(start_idx, end_idx))

feature = np.array(df_subset.select("vector_features_scaled").rdd.map(lambda row: row[0].toArray()).collect())
label = df_subset.select("ptype_s_l_m_v").toPandas().values.flatten()

yield feature, label

Code: Select all

dataset = tf.data.Dataset.from_generator(
lambda: data_generator(df, chunk_size),
output_signature=(
tf.TensorSpec(shape=(None, 24), dtype=tf.float32),
tf.TensorSpec(shape=(None, 4), dtype=tf.float32)
))

Ich teile und stapele meine Daten auf diese Weise zum Trainieren/Validieren

Code: Select all

batch_sz = 100
split_ratio = .9
split_size = math.floor((chunk_size*10) * split_ratio)

train_dataset = dataset.take(split_size).batch(batch_sz)
train_dataset = train_dataset.prefetch(tf.data.experimental.AUTOTUNE)
test_dataset = dataset.skip(split_size).batch(batch_sz)
test_dataset = test_dataset.prefetch(tf.data.experimental.AUTOTUNE)

steps_per_epoch=math.ceil(10000 * split_ratio) / batch_sz)
validation_steps=math.ceil((10000-split_size)) / batch_sz)

model.fit(train_dataset,
steps_per_epoch=steps_per_epoch,
epochs=3,
validation_data=test_dataset,
validation_steps=validation_steps,
verbose=2)

results = model.evaluate(dataset.batch(batch_sz))

Ohne Batch funktionieren alle großartig (model.fit() und model.evaluate())
aber wenn ich Batch verwende, erhalte ich diese Fehlermeldung:

Code: Select all

W tensorflow/core/framework/local_rendezvous.cc:404] Local rendezvous is aborting with status: OUT_OF_RANGE: End of sequence
[[{{node IteratorGetNext}}]]
/usr/lib/python3.11/contextlib.py:155: UserWarning: Your input ran out of data; interrupting training. Make sure that your dataset or generator can generate at least `steps_per_epoch * epochs` batches. You may need to use the `.repeat()` function when building your dataset.
self.gen.throw(typ, value, traceback)

Ich sehe viele Hinweise auf die Epoche „steps_per_epoch“ und die Stapelgröße, finde aber beim Anwenden auf geteilte Daten keine Lösung.

1736199846

Guest

Ziemlich neu mit Datengenerator und Datensatz von Tensorflow. Ich habe Probleme mit der Größenanpassung von Batch, Epochen und Schritten ... Ich kann mir nicht vorstellen, wie man den Fehler „Lokales Rendezvous wird mit Status abgebrochen: OUT_OF_RANGE: Ende der Sequenz“ beseitigt.
I Versuchen Sie es mit der Größe eines vom Datengenerator aufgerufenen Teils meiner Daten und versuchen Sie es mit der vollständigen Größe meines gesamten Datensatzes und der Größe des geteilten Datensatzes, aber niemand scheint zu funktionieren.
Hier ein vereinfachter Code von mein letzter Versuch
[code]def data_generator(df, chunk_size):

total_number_sample = 10000

for start_idx in range(1, total_number_sample , chunk_size):

end_idx = start_idx + chunk_size-1

df_subset = df.where(col('idx').between(start_idx, end_idx))

feature = np.array(df_subset.select("vector_features_scaled").rdd.map(lambda row: row[0].toArray()).collect())
label = df_subset.select("ptype_s_l_m_v").toPandas().values.flatten()

yield feature, label
[/code]
[code]dataset = tf.data.Dataset.from_generator(
lambda: data_generator(df, chunk_size),
output_signature=(
tf.TensorSpec(shape=(None, 24), dtype=tf.float32),
tf.TensorSpec(shape=(None, 4), dtype=tf.float32)
))
[/code]
Ich teile und stapele meine Daten auf diese Weise zum Trainieren/Validieren
[code]batch_sz = 100
split_ratio = .9
split_size = math.floor((chunk_size*10) * split_ratio)

train_dataset = dataset.take(split_size).batch(batch_sz)
train_dataset = train_dataset.prefetch(tf.data.experimental.AUTOTUNE)
test_dataset = dataset.skip(split_size).batch(batch_sz)
test_dataset = test_dataset.prefetch(tf.data.experimental.AUTOTUNE)

steps_per_epoch=math.ceil(10000 * split_ratio) / batch_sz)
validation_steps=math.ceil((10000-split_size)) / batch_sz)

model.fit(train_dataset,
steps_per_epoch=steps_per_epoch,
epochs=3,
validation_data=test_dataset,
validation_steps=validation_steps,
verbose=2)

results = model.evaluate(dataset.batch(batch_sz))
[/code]
Ohne Batch funktionieren alle großartig (model.fit() und model.evaluate())
aber wenn ich Batch verwende, erhalte ich diese Fehlermeldung: 
[code]W tensorflow/core/framework/local_rendezvous.cc:404] Local rendezvous is aborting with status: OUT_OF_RANGE: End of sequence
[[{{node IteratorGetNext}}]]
/usr/lib/python3.11/contextlib.py:155: UserWarning: Your input ran out of data; interrupting training. Make sure that your dataset or generator can generate at least `steps_per_epoch * epochs` batches. You may need to use the `.repeat()` function when building your dataset.
self.gen.throw(typ, value, traceback)
[/code]
Ich sehe viele Hinweise auf die Epoche „steps_per_epoch“ und die Stapelgröße, finde aber beim Anwenden auf geteilte Daten keine Lösung.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Der Wert einer geteilten Liste in Python kann nicht festgelegt werden

Last post by Anonymous « 22 Mar 2025, 03:43
Posted in Python

by Anonymous » 22 Mar 2025, 03:43 » in Python

Ich habe Probleme, eine Liste auf einen bestimmten Index auf einen bestimmten Wert festzulegen. Zum Beispiel:
healths .split( , ) = 0

Dieser Code wird ausgeführt, ändert jedoch nicht den Wert....

0 Replies

2 Views

Last post by Anonymous
22 Mar 2025, 03:43
TensorFlow -Importfehler: Kein Modul mit dem Namen 'TensorFlow' '

Last post by Anonymous « 13 Feb 2025, 06:21
Posted in Python

by Anonymous » 13 Feb 2025, 06:21 » in Python

Ich habe den Tensorflow auf meinem Windows Python 3.5 Anaconda Umgebung installiert
Die Validierung war erfolgreich (mit einer Warnung)

(tensorflow) C:\>python

Python 3.5.3 | Intel Corporation |...

0 Replies

16 Views

Last post by Anonymous
13 Feb 2025, 06:21
Pre-Commit findet lokale Hooks auch nach dem Löschen des Hooks-Verzeichnisses und dem Leeren des Caches

Last post by Guest « 18 Jan 2025, 22:26
Posted in Python

by Guest » 18 Jan 2025, 22:26 » in Python

Ich verwende Pre-Commit, um lokale Hooks für mein Repository zu verwalten. Zunächst habe ich ein lokales Repository mit meinen Hooks hinzugefügt und die Datei .pre-commit-config.yaml so konfiguriert,...

0 Replies

24 Views

Last post by Guest
18 Jan 2025, 22:26
Probleme mit der Erkennung von GPU für Tensorflow 2.10.0, CUDA 11.8, CUDNN 8.6 - C ++ Tensorflow

Last post by Anonymous « 16 Mar 2025, 15:36
Posted in C++

by Anonymous » 16 Mar 2025, 15:36 » in C++

Ich habe Probleme mit TensorFlow, wenn ich meine GPU nicht sehen kann. Ich weiß nicht, ob es ein Problem mit der Installation von CUDA 11.8 gibt, wenn mein Nvidia-Smi sagt: NVIDIA-SMI 572.70...

0 Replies

15 Views

Last post by Anonymous
16 Mar 2025, 15:36
Probleme mit Tensorflow und TensorFlow-io beim Training eines CNN auf Colab

Last post by Anonymous « 05 Apr 2025, 11:29
Posted in Python

by Anonymous » 05 Apr 2025, 11:29 » in Python

Ich habe seit Januar einige CNNs auf Colab mit Tensorflow und TensorFlow-io trainiert. Das Training eines Modells dauerte vor ein paar Monaten mehr oder weniger 30 Minuten. Jetzt, seit einigen...

0 Replies

8 Views

Last post by Anonymous
05 Apr 2025, 11:29

Return to “Python”