Für meine Diplomarbeit versuche ich, Ausreißer in meinem Datensatz zu identifizieren. Der Datensatz besteht aus 160.000 Malen einer Variablen aus einer realen Prozessumgebung. In dieser Umgebung kann es jedoch zu Messungen kommen, bei denen es sich nicht um tatsächliche Daten aus dem Prozess selbst handelt, sondern lediglich um Junk-Daten. Ich würde sie gerne mit ein wenig Hilfe der Literatur herausfiltern, statt nur mit „Expertenmeinung“.
Jetzt habe ich über die IQR-Methode gelesen, um mögliche Ausreißer zu erkennen liegen, wenn es sich um eine symmetrische Verteilung wie die Normalverteilung handelt. Allerdings ist mein Datensatz rechtsschief und durch Verteilungsanpassung, inverses Gamma und logarithmische Normalverteilung am besten geeignet.
Während meiner Suche nach Methoden für nichtsymmetrische Verteilungen habe ich Ich habe dieses Thema auf Crossvalidated gefunden, wo die Antwort von Benutzer603 besonders interessant ist: Gibt es eine Boxplot-Variante für Poisson-verteilte Daten?
In der Antwort von Benutzer603 gibt er an, dass es sich um einen angepassten Boxplot handelt hilft, mögliche Ausreißer in Ihrem Datensatz zu identifizieren und dass R und Matlab Funktionen dafür haben
(Es gibt eine 𝚁R-Implementierung davon
(𝚛𝚘𝚋𝚞𝚜𝚝𝚋𝚊𝚜𝚎::𝚊𝚍𝚓𝚋𝚘𝚡()robustbase::adjbox()) sowie
ein Matlab-Modell (in einer Bibliothek namens 𝚕𝚒𝚋𝚛𝚊libra)
Ich habe mich gefragt, ob es eine solche Funktion in Python gibt. Oder gibt es eine Möglichkeit, das Med Couple zu berechnen (siehe Artikel in (Antwort von user603) mit Python?
Ich würde wirklich gerne sehen, was aus dem angepassten Boxplot für meine Daten herauskommt.
Boxplot in Python angepasst ⇐ Python
-
- Similar Topics
- Replies
- Views
- Last post