Zu langsame Audio-Chunk-Generierung mit der XTTS-v2-Funktion inference_stream

Zu langsame Audio-Chunk-Generierung mit der XTTS-v2-Funktion inference_stream ⇐ Python

1 post • Page 1 of 1

Anonymous

Zu langsame Audio-Chunk-Generierung mit der XTTS-v2-Funktion inference_stream

Report
Quote

Post by Anonymous » 17 Jan 2026, 09:55

Ich versuche derzeit, mit Coqui-tts XTTS-v2 eine Echtzeit-Audiogenerierung durchzuführen, bin jedoch auf das Problem einer langsamen Audio-Chunk-Generierung des Modells gestoßen. Ich verwende GPU RTX 2070 Super 8 GB VRAM und frage mich, ob die Art und Weise, wie ich die Funktion aufrufe, den Prozess verlangsamt oder meine GPU zu schwach ist
So sieht das Skript aus

Code: Select all

import torch
import TTS
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.utils.manage import ModelManager
from TTS.utils.generic_utils import get_user_data_dir
from TTS.tts.models.xtts import Xtts
import os
import sounddevice as sd

print('Loading TTS config and model')

torch.serialization.add_safe_globals([XttsConfig, TTS.tts.models.xtts.XttsAudioConfig, TTS.config.shared_configs.BaseDatasetConfig, TTS.tts.models.xtts.XttsArgs])

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
tts_model_name = "tts_models/multilingual/multi-dataset/xtts_v2"
ModelManager().download_model("tts_models/multilingual/multi-dataset/xtts_v2")
model_path = os.path.join(get_user_data_dir("tts"), tts_model_name.replace("/", "--"))
config = XttsConfig()
config.load_json(os.path.join(model_path, "config.json"))
model = Xtts.init_from_config(config)
model.load_checkpoint(config, model_path, use_deepspeed=False)

voice_wav = './audio/output2.wav'

gpt_cond_latent, speaker_embedding = model.get_conditioning_latents(audio_path=voice_wav, gpt_cond_len=36, gpt_cond_chunk_len=12, load_sr=22050)
model.to(device, non_blocking=True)

print('TTS model ready')

# running
text = 'Servus, ich kann dich hören, ist bei dir alles in Ordnung? Kann ich irgendwie helfen? Frag mich wenn du was hast.'

with sd.OutputStream(24000, channels=1) as stream:
for chunk in model.inference_stream(text, language='de', gpt_cond_latent=gpt_cond_latent, speaker_embedding=speaker_embedding, stream_chunk_size=35):
chunk_np = chunk.cpu().numpy() if torch.is_tensor(chunk) else chunk
stream.write(chunk_np)

Ich habe auch versucht, die Effizienz des Modells mit diesem Skript zu messen

Code: Select all

import time
t0 = time.time()
chunk = next(model.inference_stream(
text,
language='de',
gpt_cond_latent=gpt_cond_latent,
speaker_embedding=speaker_embedding
))
gen_time = time.time() - t0
t1 = time.time()
chunk_np = chunk.cpu().numpy() if torch.is_tensor(chunk) else chunk
copy_time = time.time() - t1

print("gen_time:", gen_time, "copy_time:", copy_time, "samples:", chunk_np.size)

Und habe das zurückbekommen:

Code: Select all

gen_time: 0.8997743129730225 copy_time: 0.0 samples: 21248

Wissen Sie, warum die Generationszeit so lang ist? Liegt es nur daran, dass meine GPU schwach ist oder etwas anderes? Danke für jede Antwort

1768640125

Anonymous

Ich versuche derzeit, mit Coqui-tts XTTS-v2 eine Echtzeit-Audiogenerierung durchzuführen, bin jedoch auf das [url=viewtopic.php?t=26065]Problem[/url] einer langsamen Audio-Chunk-Generierung des Modells gestoßen. Ich verwende GPU RTX 2070 Super 8 GB VRAM und frage mich, ob die Art und Weise, wie ich die Funktion aufrufe, den Prozess verlangsamt oder meine GPU zu schwach ist
So sieht das Skript aus
[code]import torch
import TTS
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.utils.manage import ModelManager
from TTS.utils.generic_utils import get_user_data_dir
from TTS.tts.models.xtts import Xtts
import os
import sounddevice as sd

print('Loading TTS config and model')

torch.serialization.add_safe_globals([XttsConfig, TTS.tts.models.xtts.XttsAudioConfig, TTS.config.shared_configs.BaseDatasetConfig, TTS.tts.models.xtts.XttsArgs])

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
tts_model_name = "tts_models/multilingual/multi-dataset/xtts_v2"
ModelManager().download_model("tts_models/multilingual/multi-dataset/xtts_v2")
model_path = os.path.join(get_user_data_dir("tts"), tts_model_name.replace("/", "--"))
config = XttsConfig()
config.load_json(os.path.join(model_path, "config.json"))
model = Xtts.init_from_config(config)
model.load_checkpoint(config, model_path, use_deepspeed=False)

voice_wav = './audio/output2.wav'

gpt_cond_latent, speaker_embedding = model.get_conditioning_latents(audio_path=voice_wav, gpt_cond_len=36, gpt_cond_chunk_len=12, load_sr=22050)
model.to(device, non_blocking=True)

print('TTS model ready')

# running
text = 'Servus, ich kann dich hören, ist bei dir alles in Ordnung? Kann ich irgendwie helfen? Frag mich wenn du was hast.'

with sd.OutputStream(24000, channels=1) as stream:
for chunk in model.inference_stream(text, language='de', gpt_cond_latent=gpt_cond_latent, speaker_embedding=speaker_embedding, stream_chunk_size=35):
chunk_np = chunk.cpu().numpy() if torch.is_tensor(chunk) else chunk
stream.write(chunk_np)
[/code]
Ich habe auch versucht, die Effizienz des Modells mit diesem Skript zu messen
[code]import time
t0 = time.time()
chunk = next(model.inference_stream(
text,
language='de',
gpt_cond_latent=gpt_cond_latent,
speaker_embedding=speaker_embedding
))
gen_time = time.time() - t0
t1 = time.time()
chunk_np = chunk.cpu().numpy() if torch.is_tensor(chunk) else chunk
copy_time = time.time() - t1

print("gen_time:", gen_time, "copy_time:", copy_time, "samples:", chunk_np.size)
[/code]
Und habe das zurückbekommen:[code]gen_time: 0.8997743129730225 copy_time: 0.0 samples: 21248[/code]
Wissen Sie, warum die Generationszeit so lang ist? Liegt es nur daran, dass meine GPU schwach ist oder etwas anderes? Danke für jede Antwort

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Chunk-Größe immer 4 im Multi-Thread-Schritt, obwohl die Chunk-Größe auf 6 eingestellt ist

Last post by Anonymous « 09 Sep 2025, 13:27
Posted in Java

by Anonymous » 09 Sep 2025, 13:27 » in Java

Ich verwende Spring Batch 5.2.2 mit einem kugelorientierten Schritt und einer Multi-Thread-Ausführung. Here’s my setup:

Chunk size: 6 (new SimpleCompletionPolicy(6))
Thread pool: corePoolSize=5,...

0 Replies

37 Views

Last post by Anonymous
09 Sep 2025, 13:27
So streamen Sie Audio aus Google Cloud -Speicher in Stücken und konvertieren Sie jeden Chunk in WAV für Whisper -Transkr

Last post by Anonymous « 25 Jul 2025, 16:13
Posted in Python

by Anonymous » 25 Jul 2025, 16:13 » in Python

Ich arbeite an einem Projekt, bei dem ich mit dem Flüstermodell von OpenAI in einem Google Cloud -Speicher -Bucket Audio transkribieren muss. Das Audio wird im Webm-Format mit OPUS-Codierung...

0 Replies

22 Views

Last post by Anonymous
25 Jul 2025, 16:13
Was ist der beste Weg, um die Chunk -Größe zu kontrollieren, die von XML -iterativen Parsers in Python verwendet wird, o

Last post by Anonymous « 25 Feb 2025, 09:25
Posted in Python

by Anonymous » 25 Feb 2025, 09:25 » in Python

Frage: Was ist der beste Weg, um die Chunk -Größe zu kontrollieren, die von Standard -XML -iterativen Parsers in Python verwendet wird? Chunk -Größe zur Verwendung durch iterative Parser, was ist...

0 Replies

40 Views

Last post by Anonymous
25 Feb 2025, 09:25
AWS S3 Get After Put Include Include Chunk-Signatur-Daten

Last post by Anonymous « 11 Jul 2025, 12:48
Posted in C#

by Anonymous » 11 Jul 2025, 12:48 » in C#

Nachdem das Objekt ein PutObject an S3 einiger einfacher Textdaten durchgeführt und dann dieses Objekt mit GetObject zurückgerufen hat, enthält das Objekt eine extranneische Chunk-Signatur Daten, die...

0 Replies

43 Views

Last post by Anonymous
11 Jul 2025, 12:48
Verbessern Sie die RAGFlow RAG-Suche und Chunk-Einbettungen

Last post by Anonymous « 06 Jan 2026, 06:21
Posted in Python

by Anonymous » 06 Jan 2026, 06:21 » in Python

Problem 1
Ich möchte die RAGFlow RAG-Suchgeschwindigkeit und die Chunk-Einbettungsgeschwindigkeit verbessern. Derzeit dauert die Einbettung pro PDF fast eine Minute. Wenn ein PDF beispielsweise 12...

0 Replies

0 Views

Last post by Anonymous
06 Jan 2026, 06:21

Return to “Python”