Sparen von Sparks MLLIB -Modell mit Kedro -Datenkatalog

Sparen von Sparks MLLIB -Modell mit Kedro -Datenkatalog ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Sparen von Sparks MLLIB -Modell mit Kedro -Datenkatalog

Post by Anonymous » 01 Jul 2025, 13:09

Betrachten Sie das Modell, das in diesem Exempl in Kedros Dokumentation trainiert wird. < /p>

from typing import Any, Dict

from kedro.pipeline import node, pipeline
from pyspark.ml.classification import RandomForestClassifier
from pyspark.sql import DataFrame

def train_model(training_data: DataFrame) -> RandomForestClassifier:
"""Node for training a random forest model to classify the data."""
classifier = RandomForestClassifier(numTrees=10)
return classifier.fit(training_data)

def predict(model: RandomForestClassifier, testing_data: DataFrame) -> DataFrame:
"""Node for making predictions given a pre-trained model and a testing dataset."""
predictions = model.transform(testing_data)
return predictions

def create_pipeline(**kwargs) -> Pipeline:
return pipeline(
[
node(train_model, inputs=["training_data"], outputs="example_classifier"),
node(
predict,
inputs=dict(model="example_classifier", testing_data="testing_data"),
outputs="example_predictions",
),
]
)
< /code>
Ich möchte mein vorgebildetes Modell nicht verlieren und es als PYSPARK-Pipelinemodel speichern, aber ich konnte in Kedro-Datensatz keine geeignete Datenstelle dafür finden. Normalerweise würde ich so etwas wie folgt machen: < /p>
save_path = "path/to/save/pipeline_model"
pipeline_model.save(save_path)
< /code>
Aber da ich Kedro benutze, möchte ich keine IO außerhalb meines Katalogs haben. Ist dies ein unterstützter Anwendungsfall oder müsste ich meine eigenen Daten benutzerdefinierten Kedrodataset

implementieren, um dies zu erreichen?

1751368142

Anonymous

Betrachten Sie das Modell, das in diesem Exempl in Kedros Dokumentation trainiert wird. < /p>
[code]from typing import Any, Dict

from kedro.pipeline import node, pipeline
from pyspark.ml.classification import RandomForestClassifier
from pyspark.sql import DataFrame

def train_model(training_data: DataFrame) -> RandomForestClassifier:
"""Node for training a random forest model to classify the data."""
classifier = RandomForestClassifier(numTrees=10)
return classifier.fit(training_data)

def predict(model: RandomForestClassifier, testing_data: DataFrame) -> DataFrame:
"""Node for making predictions given a pre-trained model and a testing dataset."""
predictions = model.transform(testing_data)
return predictions

def create_pipeline(**kwargs) -> Pipeline:
return pipeline(
[
node(train_model, inputs=["training_data"], outputs="example_classifier"),
node(
predict,
inputs=dict(model="example_classifier", testing_data="testing_data"),
outputs="example_predictions",
),
]
)
< /code>
Ich möchte mein vorgebildetes Modell nicht verlieren und es als PYSPARK-Pipelinemodel speichern, aber ich konnte in Kedro-Datensatz keine geeignete Datenstelle dafür finden. Normalerweise würde ich so etwas wie folgt machen: < /p>
save_path = "path/to/save/pipeline_model"
pipeline_model.save(save_path)
< /code>
Aber da ich Kedro benutze, möchte ich keine IO außerhalb meines Katalogs haben. Ist dies ein unterstützter Anwendungsfall oder müsste ich meine eigenen Daten benutzerdefinierten Kedrodataset [/code] implementieren, um dies zu erreichen?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Python Kedro - Abrufen und Verwenden von Params in Registry_Pipeleine.py abrufen und verwenden

Last post by Anonymous « 08 Apr 2025, 15:54
Posted in Python

by Anonymous » 08 Apr 2025, 15:54 » in Python

In einem meiner Projekte möchte ich meine Pipeline dynamisch erstellen (als Sequenz mehrerer Pipelines) gemäß den als Parameter aus dem Kedro -Cli
. Zum Beispiel habe ich 3 Pipelines (Pipelinea,...

0 Replies

19 Views

Last post by Anonymous
08 Apr 2025, 15:54
Sparen von Domain -Ereignissen auf der Entität im Unternehmen Framework (COSMOSDB)

Last post by Anonymous « 21 Mar 2025, 00:27
Posted in C#

by Anonymous » 21 Mar 2025, 00:27 » in C#

Nach dem domänengesteuerten Design versuche ich, ein Operationsbox -Muster zu implementieren, das Domänenereignisse auf einem von Aggregateroot abgeleiteten Entität in derselben Transaktion in...

0 Replies

14 Views

Last post by Anonymous
21 Mar 2025, 00:27
Sparen von Domain -Ereignissen auf der Entität im Unternehmen Framework (COSMOSDB)

Last post by Anonymous « 21 Mar 2025, 06:40
Posted in C#

by Anonymous » 21 Mar 2025, 06:40 » in C#

folgt domänengetriebenes Design versuche ich, ein Operationsbox-Muster zu implementieren, das Domänenereignisse in einem Aggregateroot abgeleitete Entität in derselben Transaktion in CosmosDB...

0 Replies

17 Views

Last post by Anonymous
21 Mar 2025, 06:40
Zugriff auf Blätter, Sparen von Excel-Dateien, Java, Java Com Bridge (Jacob Jacob-1.16)

Last post by Anonymous « 17 Aug 2025, 22:02
Posted in Java

by Anonymous » 17 Aug 2025, 22:02 » in Java

Ich habe mir das mitgelieferte Excel-Beispiel der neuesten Version von Java Com Bridge (Jacob-1.16) angesehen und war ein wenig enttäuscht, weil sie auf einer brandneuen Excel-Datei erstellt und...

0 Replies

0 Views

Last post by Anonymous
17 Aug 2025, 22:02
"Distachiertes Unternehmen, das an Bestehen gebracht wurde", unmittelbar nach dem Sparen

Last post by Guest « 04 Feb 2025, 15:58
Posted in Java

by Guest » 04 Feb 2025, 15:58 » in Java

Ich habe die folgende Methode, die eine org.springframework.dao.invaliddataAccessapiusageException: abgenommene Entität an persist: com.domain.Pasger auf dem vehicleRepository.Saveall Call werfen....

0 Replies

26 Views

Last post by Guest
04 Feb 2025, 15:58

Return to “Python”