Was ist der beste Weg, eine parallele Reduktion durchzuführen, um Beiträge zu einer Matrix zu konsolidieren? - Programmiererforum

Was ist der beste Weg, eine parallele Reduktion durchzuführen, um Beiträge zu einer Matrix zu konsolidieren? ⇐ C++

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Was ist der beste Weg, eine parallele Reduktion durchzuführen, um Beiträge zu einer Matrix zu konsolidieren?

Post by Guest » 12 Jan 2025, 16:17

Ich versuche, eine Berechnung zu parallelisieren und die Ergebnisse in einer Matrix zusammenzufassen. Es wird eine große Anzahl von Berechnungen durchgeführt und jede einzelne trägt zu einer summierten Matrix aller Ergebnisse bei.
Dies ist eine Reduzierung, viele Frameworks (wie kokkos und cuda) bieten Unterstützung für die Reduzierung von Skalaren, wobei aus jeder parallelisierten Berechnung eine Zahl summiert wird. Allerdings möchte ich eine Matrix reduzieren.
Die resultierende Matrix skaliert mit der Problemgröße, bleibt aber immer weitaus kleiner als die Anzahl der parallelisierten Berechnungen. Zu jedem Matrixeintrag gibt es immer mehrere Beiträge.
Mein Code ist in C++ und ich verwende derzeit das Kokkos-Framework, um die Parallelisierung zu erreichen.
Versuche

1

Ich habe versucht, jedem Thread eine Kopie der Matrix zu geben und alle diese vom Gerät (GPU) auf den Host (CPU) zu kopieren ) und seriell summieren.

Der GPU-Speicherbedarf für alle Matrizen bedeutete, dass ich die Berechnung in kleinen Mengen durchführen musste
Das Kopieren von Daten vom Gerät zum Host war riesig und ineffizient, um es später zusammenzufassen
Die Laufzeit war letztendlich langsamer als die serielle Methode

2

Wie oben, aber ich habe die serielle Summierung an einem durchgeführt Thread auf dem Gerät (GPU) kopierte dann die summierte Matrix auf den Host

Immer noch das gleiche GPU-Speicherlimit
Die serielle Summierung in einem GPU-Thread war sehr langsam

Minimale Speicherkopierzeit
Die Laufzeit entsprach nahezu der seriellen Methode

3

Ich habe eine geräteseitige Matrix mit der Speichereigenschaft Kokkos::Atomic erstellt und dann jeden Thread + = sein Beitrag zur einen Matrix. Dies beruht auf dem Zugriff auf die atomare Matrix, um Kollisionen zu verhindern. Ich kopiere diese Matrix dann auf den Host.

Dies hat eine atomare Operation, die die Parallelisierung beeinträchtigt

Minimale Speicherkopierzeit
Insgesamt eine 20-fache Geschwindigkeitssteigerung, gut, aber weitaus schlechter als das theoretische Potenzial der GPU (A100 mit 10752). CUDA-Kerne).
Das ist das Schema, mit dem ich fortfahren werde, wenn ich es nicht besser machen kann

Kann jemand ein besseres System als das Atomic empfehlen? Matrix.
Gibt es in C++ ein besseres Framework mit standardisierter Funktionalität?
Minimalbeispiel mit atomarer Matrix:

Code: Select all

#include 
#include

int main(int argc, char *argv[]) {
Kokkos::initialize();

int matrix_size = 200;

int batches = 10;

Kokkos::View r("result_matrix", matrix_size,
matrix_size);

for (int batch = 0; batch < batches; batch++) {

Kokkos::parallel_for(
"populate", Kokkos::RangePolicy(0, 10752), KOKKOS_LAMBDA(const int i) {

//calculation goes here
//index and values should be calculated i dependent

r(42, 43) += 0.013;
r(42, 46) += 0.02;
});
}

auto h_r = Kokkos::create_mirror_view(r);
Kokkos::deep_copy(h_r, r);

std::cout

1736695041

Guest

Ich versuche, eine Berechnung zu parallelisieren und die Ergebnisse in einer Matrix zusammenzufassen. Es wird eine große Anzahl von Berechnungen durchgeführt und jede einzelne trägt zu einer summierten Matrix aller Ergebnisse bei.
Dies ist eine Reduzierung, viele Frameworks (wie kokkos und cuda) bieten Unterstützung für die Reduzierung von [b]Skalaren[/b], wobei aus jeder parallelisierten Berechnung eine Zahl summiert wird. Allerdings möchte ich eine [b]Matrix[/b] reduzieren.
Die resultierende Matrix skaliert mit der Problemgröße, bleibt aber immer weitaus kleiner als die Anzahl der parallelisierten Berechnungen. Zu jedem Matrixeintrag gibt es immer mehrere Beiträge.
Mein Code ist in C++ und ich verwende derzeit das Kokkos-Framework, um die Parallelisierung zu erreichen.
Versuche
[h4]1[/h4]
Ich habe versucht, jedem Thread eine Kopie der Matrix zu geben und alle diese vom Gerät (GPU) auf den Host (CPU) zu kopieren ) und seriell summieren.
[list]
[*]Der GPU-Speicherbedarf für alle Matrizen bedeutete, dass ich die Berechnung in kleinen Mengen durchführen musste
[*]Das Kopieren von Daten vom Gerät zum Host war riesig und ineffizient, um es später zusammenzufassen
[*]Die Laufzeit war letztendlich langsamer als die serielle Methode
[/list]
[h4]2[/h4]
Wie oben, aber ich habe die serielle Summierung an einem durchgeführt Thread auf dem Gerät (GPU) kopierte dann die summierte Matrix auf den Host
[list]
[*]Immer noch das gleiche GPU-Speicherlimit
[*] Die serielle Summierung in einem GPU-Thread war sehr langsam
[/list]
[list]
[*]Minimale Speicherkopierzeit


[*]Die Laufzeit entsprach nahezu der seriellen Methode
[/list]
[h4]3[/h4]
Ich habe eine geräteseitige Matrix mit der Speichereigenschaft Kokkos::Atomic erstellt und dann jeden Thread + = sein Beitrag zur einen Matrix. Dies beruht auf dem Zugriff auf die atomare Matrix, um Kollisionen zu verhindern. Ich kopiere diese Matrix dann auf den Host.
[list]
[*]Dies hat eine atomare Operation, die die Parallelisierung beeinträchtigt
[/list]
[list]
[*]Minimale Speicherkopierzeit
[*]Insgesamt eine 20-fache Geschwindigkeitssteigerung, gut, aber weitaus schlechter als das theoretische Potenzial der GPU (A100 mit 10752). CUDA-Kerne).
[*]Das ist das Schema, mit dem ich fortfahren werde, wenn ich es nicht besser machen kann
[/list]
Kann jemand ein besseres System als das Atomic empfehlen? Matrix.
Gibt es in C++ ein besseres Framework mit standardisierter Funktionalität?
Minimalbeispiel mit atomarer Matrix:
[code]#include 
#include

int main(int argc, char *argv[]) {
Kokkos::initialize();

int matrix_size = 200;

int batches = 10;

Kokkos::View r("result_matrix", matrix_size,
matrix_size);

for (int batch = 0; batch < batches; batch++) {

Kokkos::parallel_for(
"populate", Kokkos::RangePolicy(0, 10752), KOKKOS_LAMBDA(const int i) {

//calculation goes here
//index and values should be calculated i dependent

r(42, 43) += 0.013;
r(42, 46) += 0.02;
});
}

auto h_r = Kokkos::create_mirror_view(r);
Kokkos::deep_copy(h_r, r);

std::cout

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Warum ist der Aufbau einer spärlichen Matrix langsamer als der Aufbau einer dichten (vollständigen) Matrix?

Last post by Guest « 20 Jan 2025, 18:43
Posted in Python

by Guest » 20 Jan 2025, 18:43 » in Python

Ich habe zwei Funktionen (i) getKglobal und (ii) getKglobal_Sp. Allerdings ist die Zeit für die Sparse-Funktion etwa fünfmal langsamer als für die Fullmatrix-Formulierung. Ich verstehe, dass es...

0 Replies

37 Views

Last post by Guest
20 Jan 2025, 18:43
Wie mache ich Parallele innerhalb der Parallele?

Last post by Anonymous « 18 Aug 2025, 13:57
Posted in Python

by Anonymous » 18 Aug 2025, 13:57 » in Python

Im Moment führe ich eine Modelloptimierung aus, um einen Parametersatz für mehrere Stellen zu optimieren (in insgesamt 47 Stellen, d. H. Die Kostenfunktionsumme über diese 47 Ergebnisse). Die...

0 Replies

6 Views

Last post by Anonymous
18 Aug 2025, 13:57
Wie kann ich eine numpy nDarray von Ganzzahlwerten effizienter konsolidieren?

Last post by Anonymous « 26 Aug 2025, 12:17
Posted in Python

by Anonymous » 26 Aug 2025, 12:17 » in Python

Ich entschuldige mich dafür, dass ich zu viele Informationen aufgenommen habe. arrayCurveLocations ist ein unsortiertes nDarray mit Paaren von ganzzahligen Zahlen: Kurvelocations und...

0 Replies

3 Views

Last post by Anonymous
26 Aug 2025, 12:17
C++23 tbb:parallel_reduce mit std::multiplies als Reduktion

Last post by Guest « 25 Jan 2025, 17:08
Posted in C++

by Guest » 25 Jan 2025, 17:08 » in C++

Ich möchte alle Elemente eines Vektors multiplizieren. Allerdings das folgende Code-Snippet
long sum = parallel_reduce(
blocked_range(0, sum1.size()), 1.0L /* Identity for Multiplication */,...

0 Replies

9 Views

Last post by Guest
25 Jan 2025, 17:08
Was ist der beste Weg, um einem AI -Modell mit der Vertex AI eine neue Syntax beizubringen?

Last post by Anonymous « 03 Apr 2025, 05:05
Posted in Python

by Anonymous » 03 Apr 2025, 05:05 » in Python

Ich möchte einem AI -Modell wie Gemini eine neue Sprache beibringen. Was ist der beste Weg, um ein KI -Modell in dieser Syntax zu trainieren. Wenn der Benutzer im Tool (benutzerdefinierte TK -GUI)...

0 Replies

21 Views

Last post by Anonymous
03 Apr 2025, 05:05

Return to “C++”