Wie gehe ich mit unterschiedlich großen Audiodaten in der Deep Audio Classification um? - Programmiererforum

Wie gehe ich mit unterschiedlich großen Audiodaten in der Deep Audio Classification um? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Wie gehe ich mit unterschiedlich großen Audiodaten in der Deep Audio Classification um?

Report
Quote

Post by Guest » 13 Jan 2025, 10:51

Mir wurde ein Projekt zugewiesen, das sich mit der Klassifizierung von Audioereignissen bei Kriminalität und Unfällen mithilfe eines neuronalen Netzwerks befasste.
Der Dozent stellte mir zwei Datensätze (roh und erweitert) zur Verfügung, anhand derer ich das Netzwerk trainieren sollte.Die Themen dieses Projekts wurden im Kurs kurz behandelt, aber der Großteil der Aufgaben sollte von uns selbst erlernt werden, hauptsächlich im Zusammenhang mit dem Deep-Learning-Pipelining.
Die Datensätze weisen ein starkes Ungleichgewicht in der Abtastdauer auf, das nur wenige Sekunden beträgt bis über eine Minute lang. Aufgrund der Lösungen, die ich gesehen habe (hauptsächlich in Bezug auf das Auffüllen), scheint es mir nicht richtig zu sein, die kürzeren Samples bis zur maximalen Dauer im Datensatz aufzufüllen.
Das Originalpapier bezog sich darauf Zu diesem Projekt wurde vorgeschlagen, eine Audiosegmentierungstechnik zu verwenden, um jede Audiodatei in kleinere Token aufzuteilen, um das Netzwerk zu versorgen. Das hört sich ungefähr richtig an, aber ich habe keine Ahnung, wie man das effizient durchführt und wie man jeden Token an das Netzwerk weiterleitet.
Der einzige Schritt, den ich mache Zuversichtlich ist die Mel Filterbank-Verarbeitung und der Spektrogrammgenerator, obwohl ich noch nicht sicher bin, welches von CNN, RNN oder LSTM am besten für die Verarbeitung von Audiodaten geeignet ist.
Vielen Dank an alle Eure Hilfe!

1736761865

Guest

Mir wurde ein Projekt zugewiesen, das sich mit der Klassifizierung von Audioereignissen bei Kriminalität und Unfällen mithilfe eines neuronalen Netzwerks befasste.
Der Dozent stellte mir zwei Datensätze (roh und erweitert) zur Verfügung, anhand derer ich das Netzwerk trainieren sollte.Die Themen dieses Projekts wurden im Kurs kurz behandelt, aber der Großteil der Aufgaben sollte von uns selbst erlernt werden, hauptsächlich im Zusammenhang mit dem Deep-Learning-Pipelining.
Die Datensätze weisen ein starkes Ungleichgewicht in der Abtastdauer auf, das nur wenige Sekunden beträgt bis über eine Minute lang. Aufgrund der Lösungen, die ich gesehen habe (hauptsächlich in Bezug auf das Auffüllen), scheint es mir nicht richtig zu sein, die kürzeren Samples bis zur maximalen Dauer im Datensatz aufzufüllen.
Das Originalpapier bezog sich darauf Zu diesem Projekt wurde vorgeschlagen, eine Audiosegmentierungstechnik zu verwenden, um jede Audiodatei in kleinere Token aufzuteilen, um das Netzwerk zu versorgen. Das hört sich ungefähr richtig an, aber ich habe keine Ahnung, wie man das effizient durchführt und wie man jeden Token an das Netzwerk weiterleitet.
Der einzige Schritt, den ich mache Zuversichtlich ist die Mel Filterbank-Verarbeitung und der Spektrogrammgenerator, obwohl ich noch nicht sicher bin, welches von CNN, RNN oder LSTM am besten für die Verarbeitung von Audiodaten geeignet ist.
Vielen Dank an alle Eure Hilfe!

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Anzeigen eines großen Bildes, die auf verschiedenen PCs unterschiedlich unterschiedlich ist

Last post by Anonymous « 17 Aug 2025, 13:42
Posted in C#

by Anonymous » 17 Aug 2025, 13:42 » in C#

Ich zeige ein großes Bild in einer WPF -App. 108000x960 Pixel. Es funktioniert gut auf einigen Laptops - verwendet etwa 1 GB RAM, weniger als 5% CPU und scrollt reibungslos über das Bild. Bei zwei...

0 Replies

0 Views

Last post by Anonymous
17 Aug 2025, 13:42
MNIST Image Classification Gradient Descent Neural Network funktioniert nicht

Last post by Anonymous « 17 Aug 2025, 11:28
Posted in Java

by Anonymous » 17 Aug 2025, 11:28 » in Java

Ich muss die Dateien precess.java:
/*
* 4/28/24
* Final
*/

package Final;

import java.io.DataInputStream;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import...

0 Replies

0 Views

Last post by Anonymous
17 Aug 2025, 11:28
HTML5 Canvas -Größen -Größen (Downskale) Bild hohe Qualität?

Last post by Anonymous « 05 Mar 2025, 06:40
Posted in HTML

by Anonymous » 05 Mar 2025, 06:40 » in HTML

Ich verwende HTML5 -Leinwandelemente, um die Größe der Bilder in meinem Browser zu ändern. Es stellt sich heraus, dass die Qualität sehr niedrig ist. Ich fand Folgendes: Deaktivieren Sie die...

0 Replies

15 Views

Last post by Anonymous
05 Mar 2025, 06:40
IOS - So implementieren Sie Deep Links, um App zu öffnen oder mit dem URL -Schema zum iTunes -Link zu gehen

Last post by Anonymous « 21 Mar 2025, 09:01
Posted in IOS

by Anonymous » 21 Mar 2025, 09:01 » in IOS

Ich habe ein Problem mit dem URL -Schema in der Plist -Datei als m.zameen.com
, aber ich tippe dies in den Safari -Browser des iPhone, nicht op [EN [EN), aber wenn ich mit: // geöffnet bin, öffnete...

0 Replies

19 Views

Last post by Anonymous
21 Mar 2025, 09:01
Warum unterscheidet sich Audio, das von der Elevenlabs-API in Python generiert wird, von Audio, das von einer Website ge

Last post by Guest « 07 Jan 2025, 02:22
Posted in Python

by Guest » 07 Jan 2025, 02:22 » in Python

Der Code, den ich unten erwähnen werde, erzeugt einen sehr schlechten Ton (output.mp3), wie ich auf elevanlabs getestet habe. Was ist Ihrer Meinung nach der Grund dafür? Gibt es ein Problem mit den...

0 Replies

30 Views

Last post by Guest
07 Jan 2025, 02:22

Return to “Python”