from typing import Any, Dict
from kedro.pipeline import node, pipeline
from pyspark.ml.classification import RandomForestClassifier
from pyspark.sql import DataFrame
def train_model(training_data: DataFrame) -> RandomForestClassifier:
"""Node for training a random forest model to classify the data."""
classifier = RandomForestClassifier(numTrees=10)
return classifier.fit(training_data)
def predict(model: RandomForestClassifier, testing_data: DataFrame) -> DataFrame:
"""Node for making predictions given a pre-trained model and a testing dataset."""
predictions = model.transform(testing_data)
return predictions
def create_pipeline(**kwargs) -> Pipeline:
return pipeline(
[
node(train_model, inputs=["training_data"], outputs="example_classifier"),
node(
predict,
inputs=dict(model="example_classifier", testing_data="testing_data"),
outputs="example_predictions",
),
]
)
< /code>
Ich möchte mein vorgebildetes Modell nicht verlieren und es als PYSPARK-Pipelinemodel speichern, aber ich konnte in Kedro-Datensatz keine geeignete Datenstelle dafür finden. Normalerweise würde ich so etwas wie folgt machen: < /p>
save_path = "path/to/save/pipeline_model"
pipeline_model.save(save_path)
< /code>
Aber da ich Kedro benutze, möchte ich keine IO außerhalb meines Katalogs haben. Ist dies ein unterstützter Anwendungsfall oder müsste ich meine eigenen Daten benutzerdefinierten Kedrodataset
Betrachten Sie das Modell, das in diesem Exempl in Kedros Dokumentation trainiert wird. < /p> [code]from typing import Any, Dict
from kedro.pipeline import node, pipeline from pyspark.ml.classification import RandomForestClassifier from pyspark.sql import DataFrame
def train_model(training_data: DataFrame) -> RandomForestClassifier: """Node for training a random forest model to classify the data.""" classifier = RandomForestClassifier(numTrees=10) return classifier.fit(training_data)
def predict(model: RandomForestClassifier, testing_data: DataFrame) -> DataFrame: """Node for making predictions given a pre-trained model and a testing dataset.""" predictions = model.transform(testing_data) return predictions
def create_pipeline(**kwargs) -> Pipeline: return pipeline( [ node(train_model, inputs=["training_data"], outputs="example_classifier"), node( predict, inputs=dict(model="example_classifier", testing_data="testing_data"), outputs="example_predictions", ), ] ) < /code> Ich möchte mein vorgebildetes Modell nicht verlieren und es als PYSPARK-Pipelinemodel speichern, aber ich konnte in Kedro-Datensatz keine geeignete Datenstelle dafür finden. Normalerweise würde ich so etwas wie folgt machen: < /p> save_path = "path/to/save/pipeline_model" pipeline_model.save(save_path) < /code> Aber da ich Kedro benutze, möchte ich keine IO außerhalb meines Katalogs haben. Ist dies ein unterstützter Anwendungsfall oder müsste ich meine eigenen Daten benutzerdefinierten Kedrodataset [/code] implementieren, um dies zu erreichen?
In einem meiner Projekte möchte ich meine Pipeline dynamisch erstellen (als Sequenz mehrerer Pipelines) gemäß den als Parameter aus dem Kedro -Cli
. Zum Beispiel habe ich 3 Pipelines (Pipelinea,...
Nach dem domänengesteuerten Design versuche ich, ein Operationsbox -Muster zu implementieren, das Domänenereignisse auf einem von Aggregateroot abgeleiteten Entität in derselben Transaktion in...
folgt domänengetriebenes Design versuche ich, ein Operationsbox-Muster zu implementieren, das Domänenereignisse in einem Aggregateroot abgeleitete Entität in derselben Transaktion in CosmosDB...
Ich habe die folgende Methode, die eine org.springframework.dao.invaliddataAccessapiusageException: abgenommene Entität an persist: com.domain.Pasger auf dem vehicleRepository.Saveall Call werfen....
Ich trainiere ein maschinelles Lernmodell, um die Alzheimer -Krankheit in vier Kategorien zu klassifizieren. Nachdem ich die Trainings -Epochen ausgeführt hatte, habe ich Code verwendet, um das...