In Echtzeit transkribieren Sie von WebSocket aus Websocket

In Echtzeit transkribieren Sie von WebSocket aus Websocket ⇐ Python

1 post • Page 1 of 1

Anonymous

In Echtzeit transkribieren Sie von WebSocket aus Websocket

Report
Quote

Post by Anonymous » 21 Aug 2025, 03:09

from fastapi import FastAPI, WebSocket, WebSocketDisconnect
from fastapi.middleware.cors import CORSMiddleware

import numpy as np
import whisper

app = FastAPI()

# Разрешаем CORS для React приложения
app.add_middleware(
CORSMiddleware,
allow_origins=["http://localhost:3000"],
allow_credentials=True,
allow_methods=["*"],
allow_headers=["*"],
)

def bytes_to_float32_array(audio_bytes: bytes, sample_width: int = 2) -> np.ndarray:
if len(audio_bytes) == 0:
return np.array([], dtype=np.float32)
if sample_width == 1:
format_char = 'B' # unsigned char
dtype = np.uint8
max_val = 255
offset = -128 # сдвиг для преобразования в signed
elif sample_width == 2:
format_char = 'h' # signed short
dtype = np.int16
max_val = 32768 # 2^15
offset = 0
elif sample_width == 4:
format_char = 'i' # signed int
dtype = np.int32
max_val = 2147483648 # 2^31
offset = 0
else:
raise ValueError(f"Unsupported sample width: {sample_width}")

if len(audio_bytes) % sample_width != 0:
raise ValueError(f"Audio data length {len(audio_bytes)} is not divisible by sample width {sample_width}")

if sample_width == 1:
int_array = np.frombuffer(audio_bytes, dtype=dtype)
float_array = (int_array.astype(np.float32) + offset) / max_val
else:
int_array = np.frombuffer(audio_bytes, dtype=dtype)
# Нормализуем до диапазона [-1.0, 1.0]
float_array = int_array.astype(np.float32) / max_val

return float_array

model = whisper.load_model("base")
def transcribe_from_bytes(audio_bytes, sample_rate=16000):
try:
audio_array = bytes_to_float32_array(audio_bytes)
result = model.transcribe(
audio_array,
language="ru",
fp16=False
)

return result["text"]

except Exception as e:
print(f"Ошибка при транскрипции из байтов: {e}")
return {"text": "", "error": str(e)}

@app.websocket("/voice")
async def websocket_endpoint(websocket: WebSocket):
await websocket.accept()
print("WebSocket connection established")
audio_buffer = bytearray()

try:
while True:
data = await websocket.receive_bytes()
audio_buffer.extend(data)
transcription = transcribe_from_bytes(audio_buffer)
print(transcription)
await websocket.send_text("Audio chunk received")

except WebSocketDisconnect:
print("WebSocket disconnected")
await websocket.send_text(f"Final transcription error: {e}")
except Exception as e:
print(f"Error: {e}")
await websocket.close()
< /code>
Dieser Code sollte von der Website über WebSocket von Audio transkribieren. Aber aus irgendeinem Grund schreibt es immer "Quiet Music
Untertitel -Editor A. Sinetskaya Korrekturader A. Egorova"
Vielleicht konvertiere ich die Daten irgendwie nicht richtig, um an das Flüsterteil
zu senden, als ich versuchte, Audio in WAV -Datei zu speichern. Es gab nur weißes Rauschen < /p. < /P.>

1755738590

Anonymous

from fastapi import FastAPI, WebSocket, WebSocketDisconnect
from fastapi.middleware.cors import CORSMiddleware

import numpy as np
import whisper

app = FastAPI()

# Разрешаем CORS для React приложения
app.add_middleware(
CORSMiddleware,
allow_origins=["http://localhost:3000"],
allow_credentials=True,
allow_methods=["*"],
allow_headers=["*"],
)

def bytes_to_float32_array(audio_bytes: bytes, sample_width: int = 2) -> np.ndarray:
if len(audio_bytes) == 0:
return np.array([], dtype=np.float32)
if sample_width == 1:
format_char = 'B'  # unsigned char
dtype = np.uint8
max_val = 255
offset = -128  # сдвиг для преобразования в signed
elif sample_width == 2:
format_char = 'h'  # signed short
dtype = np.int16
max_val = 32768  # 2^15
offset = 0
elif sample_width == 4:
format_char = 'i'  # signed int
dtype = np.int32
max_val = 2147483648  # 2^31
offset = 0
else:
raise ValueError(f"Unsupported sample width: {sample_width}")

if len(audio_bytes) % sample_width != 0:
raise ValueError(f"Audio data length {len(audio_bytes)} is not divisible by sample width {sample_width}")

if sample_width == 1:
int_array = np.frombuffer(audio_bytes, dtype=dtype)
float_array = (int_array.astype(np.float32) + offset) / max_val
else:
int_array = np.frombuffer(audio_bytes, dtype=dtype)
# Нормализуем до диапазона [-1.0, 1.0]
float_array = int_array.astype(np.float32) / max_val

return float_array

model = whisper.load_model("base")
def transcribe_from_bytes(audio_bytes, sample_rate=16000):
try:
audio_array = bytes_to_float32_array(audio_bytes)
result = model.transcribe(
audio_array,
language="ru",
fp16=False
)

return result["text"]

except Exception as e:
print(f"Ошибка при транскрипции из байтов: {e}")
return {"text": "", "error": str(e)}

@app.websocket("/voice")
async def websocket_endpoint(websocket: WebSocket):
await websocket.accept()
print("WebSocket connection established")
audio_buffer = bytearray()

try:
while True:
data = await websocket.receive_bytes()
audio_buffer.extend(data)
transcription = transcribe_from_bytes(audio_buffer)
print(transcription)
await websocket.send_text("Audio chunk received")

except WebSocketDisconnect:
print("WebSocket disconnected")
await websocket.send_text(f"Final transcription error: {e}")
except Exception as e:
print(f"Error: {e}")
await websocket.close()
< /code>
Dieser Code sollte von der Website über WebSocket von Audio transkribieren. Aber aus irgendeinem Grund schreibt es immer "Quiet Music
Untertitel -Editor A. Sinetskaya Korrekturader A. Egorova"
Vielleicht konvertiere ich die Daten irgendwie nicht richtig, um an das Flüsterteil
zu senden, als ich versuchte, Audio in WAV -Datei zu speichern. Es gab nur weißes Rauschen < /p. < /P.>

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Transkribieren Sie Audio mit Flüstern und Google Colab Raw Wörtim mit Füllstoffen

Last post by Guest « 07 Feb 2025, 13:12
Posted in Python

by Guest » 07 Feb 2025, 13:12 » in Python

Um eine Audiodatei mit Whisper zu transkribieren. Ich lade die Datei in mein Google -Laufwerk hoch. Führen Sie den Befehl aus:
!pip install git+
!sudo apt update && sudo apt install ffmpeg

Ich...

0 Replies

15 Views

Last post by Guest
07 Feb 2025, 13:12
Websocket leitet die empfangenen Websocket-Nachrichten nicht an meine NetworkManager-Klasse weiter

Last post by Guest « 13 Jan 2025, 09:03
Posted in Android

by Guest » 13 Jan 2025, 09:03 » in Android

Grundsätzlich habe ich NetworkManager, mit dem ich auf eingehende Websocket-Nachrichten höre und diese analysiere, aber der Websocketclient empfängt sie, leitet sie aber nicht zum Parsen an den...

0 Replies

35 Views

Last post by Guest
13 Jan 2025, 09:03
Ursprungsübergreifender Websocket-Authentifizierungsfehler, es kommt zu einem Websocket-Verbindungsproblem

Last post by Guest « 13 Jan 2025, 12:20
Posted in Java

by Guest » 13 Jan 2025, 12:20 » in Java

Verbindungsfehler, wie Sie das unten beheben können, finden Sie im Code
response.addHeader( Access-Control-Allow-Origin , \* );
response.addHeader( Access-Control-Allow-Methods , GET, POST, PUT,...

0 Replies

29 Views

Last post by Guest
13 Jan 2025, 12:20
Lesen Sie Echtzeit-Sensordaten in C# (Visual Studio 2022) aus einer kontinuierlichen Aktualisierungszeichenfolge, die vo

Last post by Anonymous « 08 Apr 2025, 16:16
Posted in C#

by Anonymous » 08 Apr 2025, 16:16 » in C#

Hallo allerseits und vielen Dank im Voraus für jede Hilfe, die Sie mir geben können. Diese Daten müssen verarbeitet werden, um Codierung durchzuführen und Stimuli zu generieren, die mit der TENS...

0 Replies

17 Views

Last post by Anonymous
08 Apr 2025, 16:16
Wie kann man Schiebernfenster für die Echtzeit-Aktivitätserkennung aus Sensordaten ordnungsgemäß implementieren?

Last post by Anonymous « 13 Apr 2025, 00:18
Posted in Python

by Anonymous » 13 Apr 2025, 00:18 » in Python

Wir entwickeln ein Echtzeit-Herbst-Erkennungssystem mit einem tragbaren Sensor (Beschleunigungsmesser und Gyroskop), der kontinuierliche Daten an Firebase sendet. Unser maschinelles Lernmodell wurde...

0 Replies

12 Views

Last post by Anonymous
13 Apr 2025, 00:18

Return to “Python”