Python optimiert Realtime Speech-to-Text mit Azure SDK

Python optimiert Realtime Speech-to-Text mit Azure SDK ⇐ Python

1 post • Page 1 of 1

Anonymous

Python optimiert Realtime Speech-to-Text mit Azure SDK

Report
Quote

Post by Anonymous » 21 Mar 2025, 10:01

Hallo, ich versuche, mit Streamlit- und Azure Speech SDK eine Echtzeit-Rede zum Text zu erstellen. Verwendet Dateien, übergeben Sie den AudioTream und drehen Sie ihn asynchronisiert, haben jedoch auch nicht den geführten Pfad gearbeitet: https://microsoft.github.io/techexcel-i ... /0402.html< örtlich örtlich örtlich adranscription/0402.html< adranscription/örtlich örtlich örtlich adranscription/0402.html< örtlich örtlich adranscription/0402.html bearbeiteten Code: < /p>

Code: Select all

def addsentence(evt: ConversationTranscriptionEventArgs):
if evt.result.speaker_id == "Unknown":
logger.debug("Unknown speaker: " + str(evt))
return
logger.info(f"Detected **{evt.result.speaker_id}**: {evt.result.text}")
st.session_state.r.append(f"**{evt.result.speaker_id}**: {evt.result.text}")
< /code>
webrtc_ctx = webrtc_streamer(key="speech-to-text", mode=WebRtcMode.SENDONLY,
media_stream_constraints={"video": False, "audio": True},
audio_receiver_size=256)

while webrtc_ctx.state.playing:
if not st.session_state["recording"]:
st.session_state.r = []

st.session_state.stream = PushAudioInputStream()
###
audio_input = speechsdk.AudioConfig(stream=st.session_state.stream)
speech_config = speechsdk.SpeechConfig(env["SPEECH_KEY"], env["SPEECH_REGION"])
if "proxy_host" in env and "proxy_port" in env:
speech_config.set_proxy(env["proxy_host"], int(env["proxy_port"]))
conversation_transcriber = ConversationTranscriber(speech_config, audio_input, language="it-IT")

conversation_transcriber.transcribed.connect(addsentence)
###

st.session_state.fullwav = pydub.AudioSegment.empty()
with (st.chat_message("assistant")):
with st.spinner("Trascrizione in corso..."):
stream_placeholder = st.expander("Trascrizione", icon="📝").empty()

conversation_transcriber.start_transcribing_async()
logger.info("Transcribing started!")
st.session_state["recording"] = True

try:
audio_frames = webrtc_ctx.audio_receiver.get_frames(timeout=1)
except queue.Empty:
time.sleep(0.1)
logger.debug("No frame arrived.")
continue

stream_placeholder.markdown("## Trascrizione:\n\n" + "\\\n".join(st.session_state.r))

for audio_frame in audio_frames:
st.session_state.stream.write(audio_frame.to_ndarray().tobytes())
sound = pydub.AudioSegment(
data=audio_frame.to_ndarray().tobytes(),
sample_width=audio_frame.format.bytes,
frame_rate=audio_frame.sample_rate,
channels=len(audio_frame.layout.channels),
)
st.session_state.fullwav += sound

if st.session_state["recording"]:
logger.info("stopped listening")
wav_file_path= tempfile.NamedTemporaryFile(suffix='.wav', delete=False).name
st.session_state.fullwav.export(wav_file_path, format="wav")

1742547672

Anonymous

Hallo, ich versuche, mit Streamlit- und Azure Speech SDK eine Echtzeit-Rede zum Text zu erstellen. Verwendet Dateien, übergeben Sie den AudioTream und drehen Sie ihn asynchronisiert, haben jedoch auch nicht den geführten Pfad gearbeitet: https://microsoft.github.io/techexcel-implementing-automation-practices-using-azure-openai/docs/04_implement_diaudio_transcription/0402.html< örtlich örtlich örtlich adranscription/0402.html< adranscription/örtlich örtlich örtlich adranscription/0402.html< örtlich örtlich adranscription/0402.html   bearbeiteten Code: < /p>
[code]def addsentence(evt: ConversationTranscriptionEventArgs):
if evt.result.speaker_id == "Unknown":
logger.debug("Unknown speaker: " + str(evt))
return
logger.info(f"Detected **{evt.result.speaker_id}**: {evt.result.text}")
st.session_state.r.append(f"**{evt.result.speaker_id}**: {evt.result.text}")
< /code>
webrtc_ctx = webrtc_streamer(key="speech-to-text", mode=WebRtcMode.SENDONLY,
media_stream_constraints={"video": False, "audio": True},
audio_receiver_size=256)

while webrtc_ctx.state.playing:
if not st.session_state["recording"]:
st.session_state.r = []

st.session_state.stream = PushAudioInputStream()
###
audio_input = speechsdk.AudioConfig(stream=st.session_state.stream)
speech_config = speechsdk.SpeechConfig(env["SPEECH_KEY"], env["SPEECH_REGION"])
if "proxy_host" in env and "proxy_port" in env:
speech_config.set_proxy(env["proxy_host"], int(env["proxy_port"]))
conversation_transcriber = ConversationTranscriber(speech_config, audio_input, language="it-IT")

conversation_transcriber.transcribed.connect(addsentence)
###

st.session_state.fullwav = pydub.AudioSegment.empty()
with (st.chat_message("assistant")):
with st.spinner("Trascrizione in corso..."):
stream_placeholder = st.expander("Trascrizione", icon="📝").empty()

conversation_transcriber.start_transcribing_async()
logger.info("Transcribing started!")
st.session_state["recording"] = True

try:
audio_frames = webrtc_ctx.audio_receiver.get_frames(timeout=1)
except queue.Empty:
time.sleep(0.1)
logger.debug("No frame arrived.")
continue

stream_placeholder.markdown("## Trascrizione:\n\n" + "\\\n".join(st.session_state.r))

for audio_frame in audio_frames:
st.session_state.stream.write(audio_frame.to_ndarray().tobytes())
sound = pydub.AudioSegment(
data=audio_frame.to_ndarray().tobytes(),
sample_width=audio_frame.format.bytes,
frame_rate=audio_frame.sample_rate,
channels=len(audio_frame.layout.channels),
)
st.session_state.fullwav += sound

if st.session_state["recording"]:
logger.info("stopped listening")
wav_file_path= tempfile.NamedTemporaryFile(suffix='.wav', delete=False).name
st.session_state.fullwav.export(wav_file_path, format="wav")
[/code]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Azure Speech to Text-API verwendet eine Datei im Blobspeicher – 415-Antwort. Nicht unterstützter Medientyp

Last post by Guest « 17 Jan 2025, 06:24
Posted in Python

by Guest » 17 Jan 2025, 06:24 » in Python

Ich versuche, die Azure-Ressource „Speech to Text“ für einige im Blob-Speicher gespeicherte Audiodaten auszuführen. Daher habe ich ein Python-Programm, das die Datei im Blob-Speicher erstellt und...

0 Replies

27 Views

Last post by Guest
17 Jan 2025, 06:24
Azure Speech to Text-API verwendet eine Datei im Blobspeicher – 415-Antwort. Nicht unterstützter Medientyp

Last post by Guest « 17 Jan 2025, 08:22
Posted in Python

by Guest » 17 Jan 2025, 08:22 » in Python

Ich versuche, die Azure-Ressource „Speech to Text“ für einige im Blob-Speicher gespeicherte Audiodaten auszuführen. Daher habe ich ein Python-Programm, das die Datei im Blob-Speicher erstellt und...

0 Replies

21 Views

Last post by Guest
17 Jan 2025, 08:22
Wie synchronisiere ich Python-Skripte und Espresso-Tests für E2E-Tests mit der Firebase Realtime Database?

Last post by Guest « 03 Jan 2025, 11:05
Posted in Android

by Guest » 03 Jan 2025, 11:05 » in Android

Ich habe eine Android-App entwickelt, die sich in Firebase Firestore und Realtime Database integriert. Ich möchte jetzt End-to-End-Tests (E2E) durchführen, die Firebase einbeziehen.
Test-Setup:...

0 Replies

33 Views

Last post by Guest
03 Jan 2025, 11:05
So wählen Sie eine männliche Stimme in der Google Text-to-Speech-API aus

Last post by Guest « 05 Jan 2025, 12:08
Posted in Android

by Guest » 05 Jan 2025, 12:08 » in Android

Ich möchte eine männliche Sprachausgabe von der Google Text-to-Speech-API. Gibt es einen Parameter, der für die männliche Stimme gesendet werden kann? Jetzt erhalte ich eine weibliche Stimme...

0 Replies

26 Views

Last post by Guest
05 Jan 2025, 12:08
Java Text to Speech API

Last post by Anonymous « 13 Feb 2025, 17:31
Posted in Java

by Anonymous » 13 Feb 2025, 17:31 » in Java

Ich möchte die Textimplementierung von Text in meinem Projekt, denn ich habe Java-Google-Text zur Sprache verwendet. Erkennen Sie nur bis zu 100 Zeichen. Wenn ich eine lange Passage über 100 Zeichen...

0 Replies

20 Views

Last post by Anonymous
13 Feb 2025, 17:31

Return to “Python”