Wie sammelt der Entwickler die Metrikinformationen in Edge-Geräten mit niedriger Spezifikation? [geschlossen]Python

Python-Programme
Anonymous
 Wie sammelt der Entwickler die Metrikinformationen in Edge-Geräten mit niedriger Spezifikation? [geschlossen]

Post by Anonymous »

  • Identifizieren Sie die genaue Platine (Jetson Orin NX 16 GB), die JetPack/L4T-Version, den Energiemodus (nvpmodel -q-Ausgabe) und wie sie mit Strom versorgt wird (Barrel vs. USB-C mit
    Wattzahl).
  • Erfassen Sie das Fehlersignal: dmesg -T | tail -200, journalctl -b -1, /var/log/nvpowerd.log falls vorhanden, plus etwaige GPU-Treiber- oder thermische Drosselungswarnungen.
  • Erfassen Sie Ressourcenmetriken direkt vor dem Herunterfahren mit tegrastats --logfile, jtop --record oder nvmlDeviceGet* in Ihrem Go/Python-Code; umfassen CPU-/GPU-Last,
    Speicher, Temperaturen und Stromverbrauch.
  • Erwähnen Sie relevantes Anwendungsverhalten: Arbeitslastmuster, Verwendung von CUDA, TensorRT, Deep-Learning-Modellen oder benutzerdefinierten Treibern; Beachten Sie, ob der Absturz
    unter einer bestimmten Pipeline oder nach einer bestimmten Zeit auftritt.
Jetson-spezifische Tools
  • tegrastats: leichter integrierter Sampler für CPU/GPU/RAM/Swap/Thermal/Power; In kleinen Abständen ausführen und in einer Datei protokollieren.
  • jtop/jetson_stats: verflucht die Benutzeroberfläche, kann CSV exportieren; gut zum Erkennen einer anhaltenden Leistungsaufnahme von 100 % oder thermischer Überlastung.
  • nvtop (GPU-Auslastung), iostat, powermon oder INA3221-Messwerte über /sys/bus/i2c/drivers/ina3221x.
  • Kernel-Protokolle (dmesg) zeigen häufig Unterspannung („VDD_SYS“-Fehler) oder Meldungen zum Herunterfahren wegen Überhitzung; Fügen Sie diese wörtlich hinzu.
Beispielfragestruktur
Titel: Jetson Orin NX fährt unter gemischter Python/CUDA-Last herunter, obwohl Tegrastats eine 25-W-Nutzung anzeigen
Text:
Hardware: Jetson Orin NX 16 GB, JetPack 5.1.2 (L4T 35.4.1), powered by 19V/4,7A-Adapter auf Hohlstecker.
Software: Python 3.8-App, die CUDA-Kernel aufruft, Go gRPC-Dienst auf demselben Board.
Energiemodus: nvpmodel-Modus 3 (30 W); jetson_clocks aktiviert.
Problem: Nach 7–10 Minuten anhaltender Inferenzlast schaltet sich das Board abrupt aus (kein ordnungsgemäßes Herunterfahren). Reproduziert sich konsistent.
Was ich versucht habe:
  • Tegrastats protokolliert in 1-Sekunden-Intervallen; GPU=99 %, Temperaturen

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post