Szenario
Eine Überwachungskamera mit fester Position überwacht ein Klassenzimmer.
Die Schüler sitzen an festen Tisch-/Sitzpositionen.
Im Frontend zeige ich eine 2D-Sitzanordnung (Sitz Symbole / Raster).
Zielverhalten
Wenn ein Sitzplatz besetzt ist, wird das entsprechende Symbol grün.
Wenn ein Sitzplatz für einen bestimmten Zeitraum nicht besetzt ist, wird er grau (abwesend).
Wichtig:
Die Anforderung besteht nicht darin, zu identifizieren, wer die Person ist, sondern einfach, ob eine bestimmte Sitzplatz ist besetzt oder nicht.
Mein aktueller Ansatz ist:
Personen keine IDs zuweisen (kein ReID / kein Langzeit-Tracking).
Definieren Sie stattdessen einen festen ROI (Region of Interest) für jeden Sitzplatz oder Schreibtisch.
Erkennen Sie Personen mithilfe der Objekterkennung (z. B. YOLO).
Wenn eine erkannte Person (z. B. Bbox-Mittelpunkt) in einen Sitz-ROI fällt, gilt dieser Sitz als belegt.
Wobei ich mir am unsichersten bin:
Wie kann man Personen, die in einer 3D-Kameraansicht (mit Perspektive) erkannt wurden, zuverlässig einer abstrakten 2D-Sitzanordnung auf dem Frontend zuordnen?
Das fühlt sich eher wie ein räumliches Zuordnungs-/Zuordnungsproblem als wie eine reine Erkennung an Problem.
Fragen
- Ist die Verwendung des Bounding-Box-Mittelpunkts + ROI (Punkt im Polygon) im Allgemeinen für die Sitzbelegung in realen Projekten ausreichend?
- Ist es aus technischer Sicht besser, das System sitzzentriert (jeder Sitz behält seinen eigenen Zustand bei) oder personenzentriert (Spur) zu entwerfen Personen und weisen sie dann Sitzplätzen zu)?
- Würde in der Praxis normalerweise eine ROI-basierte Kartierung ausreichen, oder wird bei dieser Art von Problem häufig Kamerakalibrierung/Homographie verwendet?
Mobile version