Ausreißer in GridDB-Zeitreihendaten effizient erkennen und ersetzen

Ausreißer in GridDB-Zeitreihendaten effizient erkennen und ersetzen ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Ausreißer in GridDB-Zeitreihendaten effizient erkennen und ersetzen

Post by Guest » 14 Jan 2025, 12:51

Ich analysiere in GridDB gespeicherte Zeitreihendaten. Mein Datensatz weist unregelmäßige Intervalle und einige Datenpunkte auf, bei denen es sich möglicherweise um Ausreißer handelt. Ich brauche eine Möglichkeit, diese Ausreißer beim Datenabruf zu identifizieren und durch interpolierte Werte zu ersetzen.
Aktuelles Setup
Ich verwende einen TimeSeries-Container in GridDB mit dieses Schema:

Zeitstempel (TIMESTAMP)
Wert (DOPPELT)

Hier ist ein Beispiel dafür, wie ich den Container fülle:

Code: Select all

import griddb_python as griddb

factory = griddb.StoreFactory.get_instance()
gridstore = factory.get_store(
notification_member="127.0.0.1:10001",
cluster_name="defaultCluster",
username="admin",
password="admin"
)

container_info = griddb.ContainerInfo(
"time_series_data",
[
["timestamp", griddb.Type.TIMESTAMP],
["value", griddb.Type.DOUBLE]
],
griddb.ContainerType.TIME_SERIES,
True
)
container = gridstore.put_container(container_info)

# Insert sample data with potential outliers
container.put([
("2024-01-01T00:00:00.000Z", 10.0),
("2024-01-01T01:00:00.000Z", 100.0),  # Possible outlier
("2024-01-01T02:00:00.000Z", 20.0)
])

Problemstellung
Ich möchte:

Ausreißer in der erkennen value mithilfe einer statistischen Methode (z. B. Z-Score, IQR).
Ersetzen Sie diese Ausreißer beim Abruf durch interpolierte Werte basierend auf ihren Nachbarpunkten.

Zum Beispiel der Wert 100,0 am 2024-01-01T01:00:00.000Z könnte durch den Durchschnitt seiner Nachbarn ersetzt werden:

Interpolierter Wert = (10,0 + 20,0) / 2 = 15,0

Frage

Unterstützt GridDB das native Erkennen und Ersetzen von Ausreißern während der Abfrageausführung?
Wenn nicht, wie lässt sich dies unter Berücksichtigung großer Datensätze mit GridDB und Python am effizientesten erreichen?< /li>

Was ich versucht habe

Verarbeitung nach der Abfrage: [/b]

Ich habe die Daten abgerufen und Python zur Ausreißererkennung verwendet Interpolation. Allerdings ist dieser Ansatz für große Datensätze rechenintensiv.
Vorverarbeitung:

Ich habe darüber nachgedacht, Ausreißer zu behandeln, bevor ich Daten in GridDB speichere, aber das erhöht den Speicherbedarf und macht den Datensatz weniger dynamisch.

Zusätzlich Kontext
Ich frage derzeit Daten wie ab Dies:

Code: Select all

SELECT * FROM time_series_data WHERE timestamp >= TIMESTAMP('2024-01-01T00:00:00.000Z')

Dies ruft jedoch nur die gespeicherten Daten ab und hilft nicht bei der Erkennung oder Interpolation von Ausreißern.
Alle Erkenntnisse, Beispiele oder Best Practices für die Handhabung Dies wäre sehr hilfreich!

1736855476

Guest

Ich analysiere in GridDB gespeicherte Zeitreihendaten. Mein Datensatz weist unregelmäßige Intervalle und einige Datenpunkte auf, bei denen es sich möglicherweise um Ausreißer handelt. Ich brauche eine Möglichkeit, diese Ausreißer beim Datenabruf zu identifizieren und durch interpolierte Werte zu ersetzen.
Aktuelles Setup
Ich verwende einen TimeSeries-Container in GridDB mit dieses Schema:
[list]
[*][b]Zeitstempel[/b] (TIMESTAMP)
[*][b]Wert (DOPPELT)
[/list]
Hier ist ein Beispiel dafür, wie ich den Container fülle:
[code]import griddb_python as griddb

factory = griddb.StoreFactory.get_instance()
gridstore = factory.get_store(
notification_member="127.0.0.1:10001",
cluster_name="defaultCluster",
username="admin",
password="admin"
)

container_info = griddb.ContainerInfo(
"time_series_data",
[
["timestamp", griddb.Type.TIMESTAMP],
["value", griddb.Type.DOUBLE]
],
griddb.ContainerType.TIME_SERIES,
True
)
container = gridstore.put_container(container_info)

# Insert sample data with potential outliers
container.put([
("2024-01-01T00:00:00.000Z", 10.0),
("2024-01-01T01:00:00.000Z", 100.0),  # Possible outlier
("2024-01-01T02:00:00.000Z", 20.0)
])
[/code]
Problemstellung
Ich möchte:
[list]
[*]Ausreißer in der erkennen value mithilfe einer statistischen Methode (z. B. Z-Score, IQR).
[*]Ersetzen Sie diese Ausreißer beim Abruf durch interpolierte Werte basierend auf ihren Nachbarpunkten.[/list]
Zum Beispiel der Wert 100,0 am 2024-01-01T01:00:00.000Z könnte durch den Durchschnitt seiner Nachbarn ersetzt werden:
[list]
[*]Interpolierter Wert = (10,0 + 20,0) / 2 = 15,0
[/list]
Frage
[list]
[*]Unterstützt GridDB das native Erkennen und Ersetzen von Ausreißern während der Abfrageausführung?
[*]Wenn nicht, wie lässt sich dies unter Berücksichtigung großer Datensätze mit GridDB und Python am effizientesten erreichen?< /li>
[/list]
Was ich versucht habe
[list]
Verarbeitung nach der Abfrage: [/b]

Ich habe die Daten abgerufen und Python zur Ausreißererkennung verwendet Interpolation. Allerdings ist dieser Ansatz für große Datensätze rechenintensiv.

[*][b]Vorverarbeitung:[/b]

Ich habe darüber nachgedacht, Ausreißer zu behandeln, bevor ich Daten in GridDB speichere, aber das erhöht den Speicherbedarf und macht den Datensatz weniger dynamisch.

[/list]
Zusätzlich Kontext
Ich frage derzeit Daten wie ab Dies:
[code]SELECT * FROM time_series_data WHERE timestamp >= TIMESTAMP('2024-01-01T00:00:00.000Z')
[/code]
Dies ruft jedoch nur die gespeicherten Daten ab und hilft nicht bei der Erkennung oder Interpolation von Ausreißern.
Alle Erkenntnisse, Beispiele oder Best Practices für die Handhabung Dies wäre sehr hilfreich!

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Der Griddb -Java -Client verbindet keine Verbindung: JC_BAD_CONNECTION aufgrund von Timeout für Benachrichtigung

Last post by Anonymous « 30 Apr 2025, 19:26
Posted in Java

by Anonymous » 30 Apr 2025, 19:26 » in Java

Hintergrund
Ich versuche mit dem Java -Client eine Verbindung zu einem lokal ausgeführten GridDB -Docker -Container herzustellen. Obwohl ich die richtige Cluster -Konfiguration und die...

0 Replies

5 Views

Last post by Anonymous
30 Apr 2025, 19:26
Es kann keine Spalten zum vorhandenen Container im GridDB -Python -Client hinzufügen

Last post by Anonymous « 02 May 2025, 05:17
Posted in Python

by Anonymous » 02 May 2025, 05:17 » in Python

Ich habe einen vorhandenen GridDB-Container, der mit dem Python-Client erstellt wurde:
from griddb_python import griddb

factory = griddb.StoreFactory.get_instance()
gridstore = factory.get_store(...

0 Replies

3 Views

Last post by Anonymous
02 May 2025, 05:17
Wie speichere und abgerufen Sie komplexe JSON -Dokumente in GridDB mit dem Python -Client?

Last post by Anonymous « 03 Jun 2025, 11:34
Posted in Python

by Anonymous » 03 Jun 2025, 11:34 » in Python

Ich versuche, komplexe JSON-ähnliche Dokumente (z. B. verschachtelte Wörterbücher) in GridDB unter Verwendung des Python-Clients zu speichern. GridDB unterstützt Key-Container-Row-Modelle, aber ich...

0 Replies

2 Views

Last post by Anonymous
03 Jun 2025, 11:34
Installieren von Griddb Python Client seltsamer Fehler

Last post by Anonymous « 17 Jul 2025, 08:02
Posted in Python

by Anonymous » 17 Jul 2025, 08:02 » in Python

Ich versuche, den GridDB Python -Client zu installieren. Ich klonierte das Github Repo: und installierte die Abhängigkeiten von Maven erfolgreich mit MVN Install. I got this massive and cryptic...

0 Replies

0 Views

Last post by Anonymous
17 Jul 2025, 08:02
Ziehen Sie effizient und ersatzlos Zufallsstichproben aus einem Array in Python

Last post by Guest « 22 Dec 2024, 09:54
Posted in Python

by Guest » 22 Dec 2024, 09:54 » in Python

Ich muss ersatzlose Zufallsstichproben aus einem 1D-NumPy-Array ziehen. Allerdings ist die Leistung von entscheidender Bedeutung, da dieser Vorgang viele Male wiederholt wird.
Hier ist der Code, den...

0 Replies

14 Views

Last post by Guest
22 Dec 2024, 09:54

Return to “Python”