Wie gehe ich mit unterschiedlich großen Audiodaten in der Deep Audio Classification um?Python

Python-Programme
Guest
 Wie gehe ich mit unterschiedlich großen Audiodaten in der Deep Audio Classification um?

Post by Guest »

Mir wurde ein Projekt zugewiesen, das sich mit der Klassifizierung von Audioereignissen bei Kriminalität und Unfällen mithilfe eines neuronalen Netzwerks befasste.
Der Dozent stellte mir zwei Datensätze (roh und erweitert) zur Verfügung, anhand derer ich das Netzwerk trainieren sollte.Die Themen dieses Projekts wurden im Kurs kurz behandelt, aber der Großteil der Aufgaben sollte von uns selbst erlernt werden, hauptsächlich im Zusammenhang mit dem Deep-Learning-Pipelining.
Die Datensätze weisen ein starkes Ungleichgewicht in der Abtastdauer auf, das nur wenige Sekunden beträgt bis über eine Minute lang. Aufgrund der Lösungen, die ich gesehen habe (hauptsächlich in Bezug auf das Auffüllen), scheint es mir nicht richtig zu sein, die kürzeren Samples bis zur maximalen Dauer im Datensatz aufzufüllen.
Das Originalpapier bezog sich darauf Zu diesem Projekt wurde vorgeschlagen, eine Audiosegmentierungstechnik zu verwenden, um jede Audiodatei in kleinere Token aufzuteilen, um das Netzwerk zu versorgen. Das hört sich ungefähr richtig an, aber ich habe keine Ahnung, wie man das effizient durchführt und wie man jeden Token an das Netzwerk weiterleitet.
Der einzige Schritt, den ich mache Zuversichtlich ist die Mel Filterbank-Verarbeitung und der Spektrogrammgenerator, obwohl ich noch nicht sicher bin, welches von CNN, RNN oder LSTM am besten für die Verarbeitung von Audiodaten geeignet ist.
Vielen Dank an alle Eure Hilfe!

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post