Verwenden von Vektortypen gegen benutzerdefinierte Strukturen für 256-Bit-Zahlen in CUDA

Verwenden von Vektortypen gegen benutzerdefinierte Strukturen für 256-Bit-Zahlen in CUDA ⇐ C++

1 post • Page 1 of 1

Anonymous

Verwenden von Vektortypen gegen benutzerdefinierte Strukturen für 256-Bit-Zahlen in CUDA

Report
Quote

Post by Anonymous » 11 Mar 2025, 23:42

Ich arbeite an der Implementierung von 256-Bit-Zahl-Arithmetik in CUDA für Operationen wie Addition mit Tragverbreitung, Subtraktion mit Ausleihen und Vergleich. Anfangs habe ich eine benutzerdefinierte Struktur definiert, um die 256-Bit-Zahl darzustellen: < /p>

Code: Select all

struct big_number_t {
unsigned long long s0; // Least significant limb
unsigned long long s1;
unsigned long long s2;
unsigned long long s3; // Most significant limb
};
< /code>
Ich bin jedoch auf Verweise auf Vektortypen in CUDA gestoßen und stellte fest, dass es integrierte Typen wie Ulong4 und Ulglong4 gibt. (https://docs.nvidia.com/cuda/cuda-cprogramming-guide/index.html#Vector-types-Alignment-Requirements-in-Device-Code) Und ich kann nicht bestimmen, welche dieser dieser Typen korrigiert. Lasten/Speichern im Vergleich zur benutzerdefinierten Struktur? Da die Carry-Ausbreitung sequentiell ist, bin ich mir nicht sicher, ob Vektortypen hier Vorteile bieten. Meine Hauptanliegen sind.struct big_number_t {
unsigned long long s0;
unsigned long long s1;
unsigned long long s2;
unsigned long long s3;
};

__device__ big_number_t bn_add(const big_number_t& a, const big_number_t& b, unsigned long long& carry_out) {
big_number_t result;
unsigned long long carry = 0;

result.s0 = a.s0 + b.s0;
carry = (result.s0 < a.s0) ? 1 : 0;

unsigned long long sum = a.s1 + b.s1 + carry;
carry = (sum < a.s1 || (carry && sum == a.s1)) ? 1 : 0;
result.s1 = sum;

sum = a.s2 + b.s2 + carry;
carry = (sum < a.s2 || (carry && sum == a.s2)) ? 1 : 0;
result.s2 = sum;

sum = a.s3 + b.s3 + carry;
carry = (sum < a.s3 || (carry && sum == a.s3)) ? 1 : 0;
result.s3 = sum;

carry_out = carry;
return result;
}

Würde das Ersetzen von Big_Number_t durch Ulonglong4 oder ulong4 Leistungsvorteile anbieten, oder ist es meistens eine Frage der Präferenz? Danke!

1741732950

Anonymous

Ich arbeite an der Implementierung von 256-Bit-Zahl-Arithmetik in CUDA für Operationen wie Addition mit Tragverbreitung, Subtraktion mit Ausleihen und Vergleich. Anfangs habe ich eine benutzerdefinierte Struktur definiert, um die 256-Bit-Zahl darzustellen: < /p>
[code]struct big_number_t {
unsigned long long s0; // Least significant limb
unsigned long long s1;
unsigned long long s2;
unsigned long long s3; // Most significant limb
};
< /code>
Ich bin jedoch auf Verweise auf Vektortypen in CUDA gestoßen und stellte fest, dass es integrierte Typen wie Ulong4 und Ulglong4 gibt. (https://docs.nvidia.com/cuda/cuda-cprogramming-guide/index.html#Vector-types-Alignment-Requirements-in-Device-Code) Und ich kann nicht bestimmen, welche dieser dieser Typen korrigiert. Lasten/Speichern im Vergleich zur benutzerdefinierten Struktur? Da die Carry-Ausbreitung sequentiell ist, bin ich mir nicht sicher, ob Vektortypen hier Vorteile bieten. Meine Hauptanliegen sind.struct big_number_t {
unsigned long long s0;
unsigned long long s1;
unsigned long long s2;
unsigned long long s3;
};

__device__ big_number_t bn_add(const big_number_t& a, const big_number_t& b, unsigned long long& carry_out) {
big_number_t result;
unsigned long long carry = 0;

result.s0 = a.s0 + b.s0;
carry = (result.s0 < a.s0) ? 1 : 0;

unsigned long long sum = a.s1 + b.s1 + carry;
carry = (sum < a.s1 || (carry && sum == a.s1)) ? 1 : 0;
result.s1 = sum;

sum = a.s2 + b.s2 + carry;
carry = (sum < a.s2 || (carry && sum == a.s2)) ? 1 : 0;
result.s2 = sum;

sum = a.s3 + b.s3 + carry;
carry = (sum < a.s3 || (carry && sum == a.s3)) ? 1 : 0;
result.s3 = sum;

carry_out = carry;
return result;
}
[/code]
Würde das Ersetzen von Big_Number_t durch Ulonglong4  oder ulong4  Leistungsvorteile anbieten, oder ist es meistens eine Frage der Präferenz? Danke!

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

CUDA über Debian Trixie: Die CUDA -Treiberversion reicht für die CUDA -Laufzeitversion nicht aus

Last post by Anonymous « 20 Aug 2025, 17:06
Posted in Linux

by Anonymous » 20 Aug 2025, 17:06 » in Linux

Ich habe Nvidia-Driver-580 und cuda-tools-13 auf Debian Trixie installiert (beide sind die neueste Version, die ich finden kann): $ a p t l i s t - - i n s t a l l e d | a g n v i d i a f i r m w a r...

0 Replies

1 Views

Last post by Anonymous
20 Aug 2025, 17:06
NEU 64-BIT DEV (Old 32-Bit Dev): Warum ist meine 64-Bit-ausführbare Datei so riesig?

Last post by Anonymous « 12 Jul 2025, 20:00
Posted in C++

by Anonymous » 12 Jul 2025, 20:00 » in C++

Ich habe mich seit V3 im C ++ - Builder entwickelt. Der größte Teil meiner Arbeit wurde in V5 und V6 erledigt. Ich bin gerade jetzt nach ein paar Jahren wieder darauf zurück und probiere die...

0 Replies

3 Views

Last post by Anonymous
12 Jul 2025, 20:00
PHPSECLIB RIJNDAEL ECB 256 BIT KEY -Problem, das sich von PHP5 nach PHP8 bewegen

Last post by Anonymous « 20 Feb 2025, 21:41
Posted in Php

by Anonymous » 20 Feb 2025, 21:41 » in Php

eine Legacy -App, die zu Debian 11 mit PHP 8.2 festgelegt wurde (PHP 5.6, die nicht mehr zur Verwendung verfügbar sind). Die ursprüngliche Anwendung verwendete die erste Version von PHPSeclib, aber...

0 Replies

26 Views

Last post by Anonymous
20 Feb 2025, 21:41
Fehler RunTimeError: CUDA -Fehler: Operation nicht unterstützt, wenn er versucht hat, etwas in CUDA zu finden

Last post by Anonymous « 11 Feb 2025, 15:03
Posted in Python

by Anonymous » 11 Feb 2025, 15:03 » in Python

Hier ist mein Code:
from transformers import AutoModelForCausalLM, AutoTokenizer, QuantoConfig
import torch
device = cuda:0
model_id = bigscience/bloom-560m
quantization_config =...

0 Replies

27 Views

Last post by Anonymous
11 Feb 2025, 15:03
Fastapi + Transformatoren + 4-Bit Mistral: .to () wird für BitsandBytes 4-Bit-Modelle Fehler nicht unterstützt

Last post by Anonymous « 03 Apr 2025, 06:07
Posted in Python

by Anonymous » 03 Apr 2025, 06:07 » in Python

Ich setze ein Fastapi-Backend mit umarmenden Gesichtstransformatoren mit dem Mistralai/Mistral-7b-Instruct-V0.1-Modell ein, das mit BitsandByTesconfig nach 4-Bit quantisiert wurde. Ich leite dies in...

0 Replies

18 Views

Last post by Anonymous
03 Apr 2025, 06:07

Return to “C++”