Sprache in Text mit Mikrofon und Hugging-Face-Transformatoren umwandeln, was zu leeren Ergebnissen führtPython

Python-Programme
Anonymous
 Sprache in Text mit Mikrofon und Hugging-Face-Transformatoren umwandeln, was zu leeren Ergebnissen führt

Post by Anonymous »

Ich versuche, den Echtzeit-Speech-zu-Text-Dienst mithilfe von sich umarmenden Gesichtsmodellen und mit meinem lokalen Mikrofon zu implementieren. Ich kann die vom Mikrofon kommenden Daten sehen (ich habe Byte-Daten gedruckt). aber ich erhalte leere Ergebnisse, wenn ich die Byte-Daten wie unten an die Huggingface-Pipeline übergebe.

Code: Select all

import speech_recognition as sr
from transformers import pipeline

import numpy as np
model = pipeline(model="facebook/wav2vec2-base-960h")

# obtain audio from the microphone
r = sr.Recognizer()
with sr.Microphone() as source:
print("Say something!")
audio = r.listen(source)
#convert audio buffer to numpy array
data = np.frombuffer(audio.get_raw_data())
output = model(data)
print(output)

Ausgabe ist nur

Code: Select all

Downloading: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2.79k/2.79k [00:00

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post