CudaHostRegister() schlägt mit „nicht genügend Speicher“ fehl, während cudaMallocHost() mit weitaus größeren Datenmengen

CudaHostRegister() schlägt mit „nicht genügend Speicher“ fehl, während cudaMallocHost() mit weitaus größeren Datenmengen ⇐ C++

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

CudaHostRegister() schlägt mit „nicht genügend Speicher“ fehl, während cudaMallocHost() mit weitaus größeren Datenmengen

Post by Guest » 20 Jan 2025, 17:48

Ich versuche, mithilfe von CUDA einen Algorithmus auf die GPU zu bringen, der prüft, ob ein geometrischer Punkt innerhalb einer Polylinie liegt. Im Moment habe ich Probleme mit der überlappenden Datenübertragung und Kernel-Ausführung bei Verwendung mehrerer separater Streams. Gemäß dieser Nvidia-Anleitung erfordert dies die Verwendung von angeheftetem Speicher. Während das Zuweisen von angeheftetem Speicher mit cudaMallocHost() und das anschließende Kopieren meiner Daten in den Speicherbereich auch dann einwandfrei zu funktionieren scheint, wenn Speicherplatz für mehrere Millionen Objekte zugewiesen wird, schlägt cudaHostRegister() mit cudaErrorMemoryAllocation fehl / „Nicht genügend Speicher“, sobald ich mit ein paar hundert Objekten arbeite. Da die Daten, die ich verarbeiten möchte, jedoch an anderer Stelle generiert werden, wäre die Verwendung von cudaMallocHost() und das Kopieren der Daten in den neu zugewiesenen Speicher ein unnötiger Umweg.
Irgendwelche Vorschläge dazu Was fehlt mir hier?
Ich arbeite an einer Nvidia RTX A2000 Laptop-GPU mit 4 GB VRAM. sizeof(PointXY) gibt 8 Bytes zurück.
Sehen Sie sich den entsprechenden Code wie folgt an. Auskommentiert, Sie können meine Version mit cudaMallocHost() sehen:
Update:
Wie in den Kommentaren gefordert, habe ich die ersetzt Originalcodebeispiel mit einem voll funktionsfähigen Beispiel.

Code: Select all

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include 

class PointXY {
public:
float x;
float y;

PointXY(float x, float y) {
this->x = x;
this->y = y;
}

PointXY() {
this->x = 0;
this->y = 0;
}
};

inline
cudaError_t checkCuda(cudaError_t result)
{
#if defined(DEBUG) || defined(_DEBUG)
if (result != cudaSuccess) {
fprintf(stderr, "CUDA Runtime Error: %s\n", cudaGetErrorString(result));
}
#endif
return result;
}

int main()
{
int cPtRequest;

std::cout > cPtRequest;

// non-default stream
cudaStream_t stream;
checkCuda(cudaStreamCreate(&stream));

// needed data pointers
PointXY* ptRequest = new PointXY[cPtRequest];
cudaError_t result;
PointXY* ptRequestDev;
PointXY returnValue;
int iValidateElem = cPtRequest - 1;

// generate test data
for (int i = 0; i < cPtRequest; i++) {
ptRequest[i] = PointXY(i + 1, i + 1);
}

// allocate and pin memory
result = checkCuda(cudaHostRegister(&ptRequest, cPtRequest * sizeof(PointXY), cudaHostRegisterDefault));
checkCuda(cudaMalloc((void**)&ptRequestDev, cPtRequest * sizeof(PointXY)));

if (result == cudaSuccess) {
// copy and validate data
checkCuda(cudaMemcpyAsync(ptRequestDev, ptRequest, cPtRequest * sizeof(PointXY), cudaMemcpyHostToDevice, stream));
checkCuda(cudaMemcpyAsync(&returnValue, &ptRequestDev[iValidateElem], sizeof(PointXY), cudaMemcpyDeviceToHost, stream));
checkCuda(cudaDeviceSynchronize());
checkCuda(cudaHostUnregister(&ptRequest));

std::cout

1737391685

Guest

Ich versuche, mithilfe von CUDA einen Algorithmus auf die GPU zu bringen, der prüft, ob ein geometrischer Punkt innerhalb einer Polylinie liegt. Im Moment habe ich Probleme mit der überlappenden Datenübertragung und Kernel-Ausführung bei Verwendung mehrerer separater Streams. Gemäß dieser Nvidia-Anleitung erfordert dies die Verwendung von angeheftetem Speicher. Während das Zuweisen von angeheftetem Speicher mit cudaMallocHost() und das anschließende Kopieren meiner Daten in den Speicherbereich auch dann einwandfrei zu funktionieren scheint, wenn Speicherplatz für mehrere Millionen Objekte zugewiesen wird, schlägt cudaHostRegister() mit cudaErrorMemoryAllocation fehl / „Nicht genügend Speicher“, sobald ich mit ein paar hundert Objekten arbeite. Da die Daten, die ich verarbeiten möchte, jedoch an anderer Stelle generiert werden, wäre die Verwendung von cudaMallocHost() und das Kopieren der Daten in den neu zugewiesenen Speicher ein unnötiger Umweg.
Irgendwelche Vorschläge dazu Was fehlt mir hier?
Ich arbeite an einer [b]Nvidia RTX A2000 Laptop-GPU[/b] mit 4 GB VRAM. sizeof(PointXY) gibt 8 Bytes zurück.
Sehen Sie sich den entsprechenden Code wie folgt an. Auskommentiert, Sie können meine Version mit cudaMallocHost() sehen:
[b]Update:[/b]
Wie in den Kommentaren gefordert, habe ich die ersetzt Originalcodebeispiel mit einem voll funktionsfähigen Beispiel.
[code]#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include 

class PointXY {
public:
float x;
float y;

PointXY(float x, float y) {
this->x = x;
this->y = y;
}

PointXY() {
this->x = 0;
this->y = 0;
}
};

inline
cudaError_t checkCuda(cudaError_t result)
{
#if defined(DEBUG) || defined(_DEBUG)
if (result != cudaSuccess) {
fprintf(stderr, "CUDA Runtime Error: %s\n", cudaGetErrorString(result));
}
#endif
return result;
}

int main()
{
int cPtRequest;

std::cout > cPtRequest;

// non-default stream
cudaStream_t stream;
checkCuda(cudaStreamCreate(&stream));

// needed data pointers
PointXY* ptRequest = new PointXY[cPtRequest];
cudaError_t result;
PointXY* ptRequestDev;
PointXY returnValue;
int iValidateElem = cPtRequest - 1;

// generate test data
for (int i = 0; i < cPtRequest; i++) {
ptRequest[i] = PointXY(i + 1, i + 1);
}

// allocate and pin memory
result = checkCuda(cudaHostRegister(&ptRequest, cPtRequest * sizeof(PointXY), cudaHostRegisterDefault));
checkCuda(cudaMalloc((void**)&ptRequestDev, cPtRequest * sizeof(PointXY)));

if (result == cudaSuccess) {
// copy and validate data
checkCuda(cudaMemcpyAsync(ptRequestDev, ptRequest, cPtRequest * sizeof(PointXY), cudaMemcpyHostToDevice, stream));
checkCuda(cudaMemcpyAsync(&returnValue, &ptRequestDev[iValidateElem], sizeof(PointXY), cudaMemcpyDeviceToHost, stream));
checkCuda(cudaDeviceSynchronize());
checkCuda(cudaHostUnregister(&ptRequest));

std::cout

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

CudaHostRegister() schlägt mit „Nicht genügend Speicher“ fehl, während cudaMallocHost() mit weitaus größeren Datenmengen

Last post by Guest « 13 Jan 2025, 15:57
Posted in C++

by Guest » 13 Jan 2025, 15:57 » in C++

Ich versuche, mithilfe von CUDA einen Algorithmus auf die GPU zu bringen, der prüft, ob ein geometrischer Punkt innerhalb einer Polylinie liegt. Im Moment habe ich Probleme mit der überlappenden...

0 Replies

4 Views

Last post by Guest
13 Jan 2025, 15:57
„[ilink32] Schwerwiegend: Nicht genügend Speicher“ in C++ Builder

Last post by Guest « 14 Jan 2025, 10:28
Posted in C++

by Guest » 14 Jan 2025, 10:28 » in C++

Nachdem wir Embarcadero C++ Builder auf eine neue Version aktualisiert haben, schlägt die Erstellung unseres Projekts plötzlich fehl. Dies geschieht gerade bei einem unserer Projekte. Für die meisten...

0 Replies

5 Views

Last post by Guest
14 Jan 2025, 10:28
Http.get schlägt die meiste Zeit fehl, während file_get_contents nicht fehlschlägt. Was mache ich mit meinem Node-Skript

Last post by Guest « 14 Jan 2025, 11:25
Posted in Php

by Guest » 14 Jan 2025, 11:25 » in Php

Ich verwende den Knoten, um Daten von der Überführung herunterzuladen. Ich erhalte ständig Fehlermeldungen (siehe weiter unten). Wenn ich jedoch file_get_contents im Codeigniter verwende, erhalte ich...

0 Replies

21 Views

Last post by Guest
14 Jan 2025, 11:25
Http.get schlägt die meiste Zeit fehl, während file_get_contents nicht fehlschlägt. Was mache ich mit meinem Node-Skript

Last post by Guest « 14 Jan 2025, 11:25
Posted in JavaScript

by Guest » 14 Jan 2025, 11:25 » in JavaScript

Ich verwende den Knoten, um Daten von der Überführung herunterzuladen. Ich erhalte ständig Fehlermeldungen (siehe weiter unten). Wenn ich jedoch file_get_contents im Codeigniter verwende, erhalte ich...

0 Replies

10 Views

Last post by Guest
14 Jan 2025, 11:25
Warum dauert das Lesen großer Datenmengen aus einer SQLite-Datenbank mit SQLAlchemy länger als mit Pandas oder CSV?

Last post by Guest « 17 Jan 2025, 06:55
Posted in Python

by Guest » 17 Jan 2025, 06:55 » in Python

Ich möchte Millionen von Einträgen aus einer lokal gehosteten Datenbank in den Speicher von Python einlesen. Ich verwende SQLAlchemy mit SQLite. Ich indiziere mit einer Datums-/Uhrzeitzeichenfolge...

0 Replies

17 Views

Last post by Guest
17 Jan 2025, 06:55

Return to “C++”