Warum transkribiert Whisper mein Audio nicht vollständig? - Programmiererforum

Warum transkribiert Whisper mein Audio nicht vollständig? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Warum transkribiert Whisper mein Audio nicht vollständig?

Report
Quote

Post by Anonymous » 03 Dec 2025, 17:15

Ich versuche, das Python-Modul openai-whisper zu verwenden, um (bereits aufgenommene) Audiodaten zu transkribieren, bei denen es sich um große Dateien handeln kann (30 Minuten bis 2 oder 3 Stunden). Ich stehe jedoch vor einem Problem: Der Ton wird mit dem Modell „large-v3“ nicht vollständig transkribiert. Ich arbeite zum Beispiel an einem 30-minütigen Audio und es wird nicht zwischen 2:00 und 15:00 Uhr transkribiert. Ich habe nachgesehen und es reden Leute.
Ich habe in anderen Beiträgen und Blogs gesehen, dass die Whisper-Leistung immer schlechter wird, wenn der Ton länger ist, also habe ich den Ton mit pydub im folgenden Code in Segmente von 15 Minuten aufgeteilt:

Code: Select all

from pydub import AudioSegment

def segment_audio_duration(audio_file: str, millisecond_duration: int, output_folder, format: str) -> tuple[int, str]:
"""
segment the audio into segments during _millisecond_duration_ and directly export them to _output_folder_

returns a tuple containg the number of segment created and the name of a file without the number
"""
sound = AudioSegment.from_file(audio_file)
duration = len(sound)
num_chunks = math.ceil(duration / millisecond_duration)
basename = audio_file.split(os.sep)[-1]
filename = basename.split('.')[0]
ext = basename.split('.')[-1]

for i in range(num_chunks):
temp = sound[i * millisecond_duration:(i+1) * millisecond_duration]
temp.export(f"{output_folder}{os.sep}{filename}_part{i+1}.{format}", format=format)

return (num_chunks, f"{filename}_part")

def transcript_audio(audio_path: str, model, language: str = "fr", gpu_usable: bool = False) -> str:
"""
Simple auxiliary function to _get_transcription_ function

:param audio_path: path of the audi file
:type audio_path: str
:param model: used model to transcribe
:param language: language of the audio
:type language: str
:return: raw content transcription
:rtype: str
"""
try:
result = model.transcribe(
audio_path,
temperature=0.0,
language=language,
fp16=gpu_usable
)
except Exception as e:
raise Exception(f"Unable to retrieve the transcription of {audio_path} ({e})")

return result["text"]

Ich kann nichts anderes als dieses Python-Modul verwenden, um mein Audio zu transkribieren. Im Moment:

Es gelingt mir, Audio mit den anderen großen Modellen mit Segmenten von 15 Minuten vollständig zu transkribieren
Es gelingt mir nur, Audio mit dem großen v3-Modell vollständig zu transkribieren, wenn Audiosegmente weniger als 5 Minuten dauern (4,9 Minuten sind in Ordnung, aber 5 nicht).
Ich habe bereits überprüft, ob alle meine segmentierte Audiodateien wurden transkribiert und sie sind alle

Warum habe ich dieses Problem, wie kann ich es lösen und warum funktioniert es mit anderen großen Modellen und nicht mit dem großen v3-Modell?

1764778527

Anonymous

Ich versuche, das Python-Modul openai-whisper zu verwenden, um (bereits aufgenommene) Audiodaten zu transkribieren, bei denen es sich um große Dateien handeln kann (30 Minuten bis 2 oder 3 Stunden). Ich stehe jedoch vor einem Problem: Der Ton wird mit dem Modell „large-v3“ nicht vollständig transkribiert. Ich arbeite zum Beispiel an einem 30-minütigen Audio und es wird nicht zwischen 2:00 und 15:00 Uhr transkribiert. Ich habe nachgesehen und es reden Leute.
Ich habe in anderen Beiträgen und Blogs gesehen, dass die Whisper-Leistung immer schlechter wird, wenn der Ton länger ist, also habe ich den Ton mit pydub im folgenden Code in Segmente von 15 Minuten aufgeteilt:
[code]from pydub import AudioSegment

def segment_audio_duration(audio_file: str, millisecond_duration: int, output_folder, format: str) -> tuple[int, str]:
"""
segment the audio into segments during _millisecond_duration_ and directly export them to _output_folder_

returns a tuple containg the number of segment created and the name of a file without the number
"""
sound = AudioSegment.from_file(audio_file)
duration = len(sound)
num_chunks = math.ceil(duration / millisecond_duration)
basename = audio_file.split(os.sep)[-1]
filename = basename.split('.')[0]
ext = basename.split('.')[-1]

for i in range(num_chunks):
temp = sound[i * millisecond_duration:(i+1) * millisecond_duration]
temp.export(f"{output_folder}{os.sep}{filename}_part{i+1}.{format}", format=format)

return (num_chunks, f"{filename}_part")

def transcript_audio(audio_path: str, model, language: str = "fr", gpu_usable: bool = False) -> str:
"""
Simple auxiliary function to _get_transcription_ function

:param audio_path: path of the audi file
:type audio_path: str
:param model: used model to transcribe
:param language: language of the audio
:type language: str
:return: raw content transcription
:rtype: str
"""
try:
result = model.transcribe(
audio_path,
temperature=0.0,
language=language,
fp16=gpu_usable
)
except Exception as e:
raise Exception(f"Unable to retrieve the transcription of {audio_path} ({e})")

return result["text"]
[/code]
Ich kann nichts anderes als dieses Python-Modul verwenden, um mein Audio zu transkribieren. Im Moment:
[list]
[*]Es gelingt mir, Audio mit den anderen großen Modellen mit Segmenten von 15 Minuten vollständig zu transkribieren

[*]Es gelingt mir nur, Audio mit dem großen v3-Modell vollständig zu transkribieren, wenn Audiosegmente weniger als 5 Minuten dauern (4,9 Minuten sind in Ordnung, aber 5 nicht).

[*]Ich habe bereits überprüft, ob alle meine segmentierte Audiodateien wurden transkribiert und sie sind alle

[/list]
Warum habe ich dieses Problem, wie kann ich es lösen und warum funktioniert es mit anderen großen Modellen und nicht mit dem großen v3-Modell?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

So streamen Sie Audio aus Google Cloud -Speicher in Stücken und konvertieren Sie jeden Chunk in WAV für Whisper -Transkr

Last post by Anonymous « 25 Jul 2025, 16:13
Posted in Python

by Anonymous » 25 Jul 2025, 16:13 » in Python

Ich arbeite an einem Projekt, bei dem ich mit dem Flüstermodell von OpenAI in einem Google Cloud -Speicher -Bucket Audio transkribieren muss. Das Audio wird im Webm-Format mit OPUS-Codierung...

0 Replies

20 Views

Last post by Anonymous
25 Jul 2025, 16:13
Warum ist Whisper nicht aus einer Audiodatei zurückgegeben?

Last post by Anonymous « 12 Sep 2025, 02:54
Posted in C#

by Anonymous » 12 Sep 2025, 02:54 » in C#

Ich arbeite mit Whisper in einem .NET MAUI -Projekt. Für die Kompilierung Schnelligkeit ist mein Ziel für die Arbeit an Windows. private static WhisperFactory? _factory;
private static...

0 Replies

26 Views

Last post by Anonymous
12 Sep 2025, 02:54
Warum unterscheidet sich Audio, das von der Elevenlabs-API in Python generiert wird, von Audio, das von einer Website ge

Last post by Guest « 07 Jan 2025, 02:22
Posted in Python

by Guest » 07 Jan 2025, 02:22 » in Python

Der Code, den ich unten erwähnen werde, erzeugt einen sehr schlechten Ton (output.mp3), wie ich auf elevanlabs getestet habe. Was ist Ihrer Meinung nach der Grund dafür? Gibt es ein Problem mit den...

0 Replies

65 Views

Last post by Guest
07 Jan 2025, 02:22
IOS avaudioplayer audio wird nicht im Hintergrund spielen, wenn Spotify aktiv Audio spielt

Last post by Anonymous « 02 Jun 2025, 17:22
Posted in IOS

by Anonymous » 02 Jun 2025, 17:22 » in IOS

Ich arbeite an einer iOS -App, die einen kurzen Timer -Sound (Timerdone.wav) mit Avaudioplayer spielt. Der Ton spielt in diesen Szenarien korrekt ab:

Wenn sich die App im Vordergrund befindet. App...

0 Replies

41 Views

Last post by Anonymous
02 Jun 2025, 17:22
Azure OpenAI Sprache zum Text -Whisper "Code": "404", "Nachricht": "Ressource nicht gefunden"

Last post by Anonymous « 25 Jul 2025, 16:28
Posted in Python

by Anonymous » 25 Jul 2025, 16:28 » in Python

Ich versuche, eine Audiodatei zu transkribieren, indem ich Whisper über Azure OpenAI -Schlüssel, Endpunkte, Bereitstellungen verwendete. Error 404: { error :{ code : 404 , message : Resource not...

0 Replies

29 Views

Last post by Anonymous
25 Jul 2025, 16:28

Return to “Python”