Für eine Klasse versuche ich, Audio aus einer Chatgpt -API -Antwort zu streamen. Der folgende Code funktioniert hauptsächlich und ich bekomme eine gute Qualität, wenn ich die gespeicherte Datei später abspiele. Wenn ich aber live versuche, ist es super abgehackt: < /p>
# Initialize an empty AudioSegment for concatenation
full_audio = AudioSegment.empty()
stream_completion = client.chat.completions.create(
model="gpt-4o-audio-preview",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "pcm16"},
messages=[
{
"role": "user",
"content": "Can you tell me a funny short story about a pickle?"
}
],
stream=True
)
# Play the audio as it comes in and concatenate it
for chunk in stream_completion:
chunk_audio = getattr(chunk.choices[0].delta, 'audio', None)
if chunk_audio is not None:
pcm_bytes = base64.b64decode(chunk_audio.get('data', ''))
if pcm_bytes:
audio_segment = AudioSegment.from_raw(
io.BytesIO(pcm_bytes),
sample_width=2, # 16-bit PCM
frame_rate=24000, # 24kHz sample rate
channels=1 # Mono audio
)
play(audio_segment)
# Concatenate the audio segment
full_audio += audio_segment
# Save the concatenated audio to a file
full_audio.export("assets/audio/full_audio.wav", format="wav")
Eine Idee, wie man das Audio ausgleicht, während ich es live über Stream spiele?
Für eine Klasse versuche ich, Audio aus einer Chatgpt -API -Antwort zu streamen. Der folgende Code funktioniert hauptsächlich und ich bekomme eine gute Qualität, wenn ich die gespeicherte Datei später abspiele. Wenn ich aber live versuche, ist es super abgehackt: < /p> [code]# Initialize an empty AudioSegment for concatenation full_audio = AudioSegment.empty()
stream_completion = client.chat.completions.create( model="gpt-4o-audio-preview", modalities=["text", "audio"], audio={"voice": "alloy", "format": "pcm16"}, messages=[ { "role": "user", "content": "Can you tell me a funny short story about a pickle?" } ], stream=True )
# Play the audio as it comes in and concatenate it for chunk in stream_completion: chunk_audio = getattr(chunk.choices[0].delta, 'audio', None) if chunk_audio is not None: pcm_bytes = base64.b64decode(chunk_audio.get('data', '')) if pcm_bytes: audio_segment = AudioSegment.from_raw( io.BytesIO(pcm_bytes), sample_width=2, # 16-bit PCM frame_rate=24000, # 24kHz sample rate channels=1 # Mono audio )
play(audio_segment) # Concatenate the audio segment full_audio += audio_segment
# Save the concatenated audio to a file full_audio.export("assets/audio/full_audio.wav", format="wav") [/code] Eine Idee, wie man das Audio ausgleicht, während ich es live über Stream spiele?
Für eine Klasse versuche ich, Audio aus einer Chatgpt -API -Antwort zu streamen. Der folgende Code funktioniert hauptsächlich und ich bekomme eine gute Qualität, wenn ich die gespeicherte Datei...
Ich muss eine Reihe von Webseiten durchsuchen. Diese Webseiten haben Adressen, die sich nur in der Seitennummer unterscheiden, und können daher parallel mit aiohttp verarbeitet werden.
Jetzt verwende...
Ich mache ein Spiel und würde gerne abgerundete Bilder rendern, aber jede Lösung, die ich ausprobiert habe, zeichnet entweder hässliche und gezackte Ecken oder verlangsamt meine Spielschleife...
Der Code, den ich unten erwähnen werde, erzeugt einen sehr schlechten Ton (output.mp3), wie ich auf elevanlabs getestet habe. Was ist Ihrer Meinung nach der Grund dafür? Gibt es ein Problem mit den...
Ich habe versucht, SWR_Convert zu verwenden, um Audio -Frames von 44100 Hz auf 16000 Hz wiederzuproben und die Frames einzeln für Testzwecke zu verarbeiten. Das resultierende Audio scheint jedoch mit...