Wie kann die Anzahl aufeinanderfolgender CUDA-Aufrufe pro Sekunde erhöht werden? - Programmiererforum

Wie kann die Anzahl aufeinanderfolgender CUDA-Aufrufe pro Sekunde erhöht werden? ⇐ C++

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Wie kann die Anzahl aufeinanderfolgender CUDA-Aufrufe pro Sekunde erhöht werden?

Post by Guest » 05 Jan 2025, 13:14

Ich schreibe einen CUDA-beschleunigten Mobilfunkautomaten und möchte, dass er mit einer hohen Aktualisierungsrate läuft (ca. 100.000 Aktualisierungen pro Sekunde). Gibt es eine Möglichkeit, aufeinanderfolgende CUDA-Aufrufe schneller durchzuführen?
Ich habe es mit leeren Schleifen getestet (256 Threads x 3 Blöcke).
Zuerst habe ich habe eine einfache Schleife mit Cuda-Aufrufen geschrieben und 40.000 Iterationen pro Sekunde erhalten. Dann habe ich mein Setup geändert: Ich habe die Schleife in meine Kernelfunktion verschoben und den Aufruf __syncthreads() am Ende des Schleifenkörpers hinzugefügt. Dadurch wurde die Aktualisierungsrate auf 50.000 pro Sekunde erhöht. Kann das noch schneller gemacht werden?

Code: Select all

#include 
#include 

#define CHUNK_SIZE 16

struct Cell {
uint8_t type;
};

struct Chunk {
uint16_t x, y;
Cell cells[CHUNK_SIZE * CHUNK_SIZE][2];
};

__global__ void update(Chunk *chunks, unsigned long long steps) {
for (unsigned long long i = 0; i < steps; i++) {
// ...
__syncthreads();
}
}

int main(void) {
thrust::host_vector h_vec;
h_vec.push_back(Chunk { 0, 0 });
h_vec.push_back(Chunk { 10, 0 });
h_vec.push_back(Chunk { 10, 12 });
thrust::device_vector d_vec = h_vec;
Chunk *chunks = thrust::raw_pointer_cast(d_vec.data());
clock_t start = clock();
unsigned long long i = 0;
while ((clock() - start) < 5000) {
update(chunks, 100000);
i += 100000;
}
cudaDeviceSynchronize();
std::cout

1736079249

Guest

Ich schreibe einen CUDA-beschleunigten Mobilfunkautomaten und möchte, dass er mit einer hohen Aktualisierungsrate läuft (ca. 100.000 Aktualisierungen pro Sekunde). Gibt es eine Möglichkeit, aufeinanderfolgende CUDA-Aufrufe schneller durchzuführen?
Ich habe es mit leeren Schleifen getestet (256 Threads x 3 Blöcke).
Zuerst habe ich habe eine einfache Schleife mit Cuda-Aufrufen geschrieben und 40.000 Iterationen pro Sekunde erhalten. Dann habe ich mein Setup geändert: Ich habe die Schleife in meine Kernelfunktion verschoben und den Aufruf __syncthreads() am Ende des Schleifenkörpers hinzugefügt. Dadurch wurde die Aktualisierungsrate auf 50.000 pro Sekunde erhöht. Kann das noch schneller gemacht werden?
[code]#include 
#include 

#define CHUNK_SIZE 16

struct Cell {
uint8_t type;
};

struct Chunk {
uint16_t x, y;
Cell cells[CHUNK_SIZE * CHUNK_SIZE][2];
};

__global__ void update(Chunk *chunks, unsigned long long steps) {
for (unsigned long long i = 0; i < steps; i++) {
// ...
__syncthreads();
}
}

int main(void) {
thrust::host_vector h_vec;
h_vec.push_back(Chunk { 0, 0 });
h_vec.push_back(Chunk { 10, 0 });
h_vec.push_back(Chunk { 10, 12 });
thrust::device_vector d_vec = h_vec;
Chunk *chunks = thrust::raw_pointer_cast(d_vec.data());
clock_t start = clock();
unsigned long long i = 0;
while ((clock() - start) < 5000) {
update(chunks, 100000);
i += 100000;
}
cudaDeviceSynchronize();
std::cout

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Fehler RunTimeError: CUDA -Fehler: Operation nicht unterstützt, wenn er versucht hat, etwas in CUDA zu finden

Last post by Anonymous « 11 Feb 2025, 15:03
Posted in Python

by Anonymous » 11 Feb 2025, 15:03 » in Python

Hier ist mein Code:
from transformers import AutoModelForCausalLM, AutoTokenizer, QuantoConfig
import torch
device = cuda:0
model_id = bigscience/bloom-560m
quantization_config =...

0 Replies

12 Views

Last post by Anonymous
11 Feb 2025, 15:03
Wie erstelle ich Zeit-Widget in iOS mit Aktualisierung pro Sekunde?

Last post by Guest « 16 Feb 2025, 08:32
Posted in IOS

by Guest » 16 Feb 2025, 08:32 » in IOS

Ich entwickle ein iOS-Widget und versuche, eine Aktualisierung pro Sekunde zu implementieren. Ich verwende
Text( \(Calendar.current.startOfDay(for: entry.date), style: .timer) )
, um die Zeit...

0 Replies

14 Views

Last post by Guest
16 Feb 2025, 08:32
Wie erstelle ich Zeit-Widget in iOS mit Aktualisierung pro Sekunde?

Last post by Anonymous « 17 Feb 2025, 04:35
Posted in IOS

by Anonymous » 17 Feb 2025, 04:35 » in IOS

Ich entwickle ein iOS-Widget und versuche, eine Aktualisierung pro Sekunde zu implementieren. Ich verwende
Text( \(Calendar.current.startOfDay(for: entry.date), style: .timer) )
, um die Zeit...

0 Replies

15 Views

Last post by Anonymous
17 Feb 2025, 04:35
Lesen Sie eine JSON-Datei einmal pro Sekunde in C# [geschlossen]

Last post by Guest « 12 Jan 2025, 14:57
Posted in C#

by Guest » 12 Jan 2025, 14:57 » in C#

Ich habe eine App, die nach einem Befehl eine spezielle Zahl in eine JSON-Datei schreiben kann.
Jetzt habe ich in meiner C#-Software
einen einfachen Code geschrieben, der diese JSON-Datei liestAber...

0 Replies

14 Views

Last post by Guest
12 Jan 2025, 14:57
Gruppierung aufeinanderfolgender Daten in einem Array zusammen in PHP [Duplicat]

Last post by Anonymous « 16 Mar 2025, 23:22
Posted in Php

by Anonymous » 16 Mar 2025, 23:22 » in Php

Ich habe die folgenden Daten in einem Array (Daten sind nicht immer diese Daten)
2012-10-18
2012-10-19
2012-10-20
2012-10-23
2012-10-24
2012-10-29
2012-10-30

Ich möchte aufeinanderfolgende...

0 Replies

3 Views

Last post by Anonymous
16 Mar 2025, 23:22

Return to “C++”