Warum weist der sequentielle Array-Zugriff eine hohe Cache-Miss-Rate auf? - Programmiererforum

Warum weist der sequentielle Array-Zugriff eine hohe Cache-Miss-Rate auf? ⇐ Linux

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Warum weist der sequentielle Array-Zugriff eine hohe Cache-Miss-Rate auf?

Report
Quote

Post by Anonymous » 27 Nov 2025, 00:41

Ich habe den folgenden C-Code, den ich teste, um Leistung und Caching zu verstehen. Es greift nacheinander auf ein Array von Doubles zu.

Code: Select all

// test.c

#include 
#include 
#include 

int main(int argc, char **argv)
{
size_t n = 10000000;
double* arr;
if (posix_memalign((void**)&arr, 64, n * sizeof(double)) != 0) {
fprintf(stderr, "posix_memalign failed\n");
exit(1);
}

for (size_t i = 0; i < n; i += 64) {
_mm_clflush(&arr[i]);
}

for (size_t i = 0; i < n; i++) arr[i] = (double)i;

double sum = 0;
for (size_t i = 0; i < n; i++) sum += arr[i];

printf("Sum: %f\n", sum);
free(arr);

return 0;
}

Ich kompiliere den Code ohne Optimierung und führe perf aus.

Code: Select all

$ gcc -o test test.c
$ perf stat -e LLC-loads,LLC-loads-misses -- ./test
Sum: 49999995000000.000000

Performance counter stats for 'test':

94,765      LLC-loads:u
91,979      LLC-loads-misses:u        #   97.06% of all LL-cache accesses

0.082974254 seconds time elapsed

0.047802000 seconds user
0.034893000 seconds sys

Ein paar Fragen stellen mich vor ein Rätsel.

Erstens sind die LLC-Lasten viel geringer als erwartet. Sollte es nahe bei 10000000/8 liegen (Cache-Zeile: 64 Byte)? Oder ist es möglich, dass nicht die gesamte Laufzeit profiliert wird?
Zweitens und was noch wichtiger ist: Die Fehlerquote ist zu hoch. Ich gehe davon aus, dass jeder Lesefehler eine Cache-Zeile mit 8 Doubles mit sich bringt. Insgesamt sollte die Fehlschussquote also bei etwa 1/8 liegen? Eigentlich sollte es viel kleiner sein, da das Vorabholen in diesem Fall sehr hilfreich ist, oder?

Übrigens, unten sind die grundlegenden Informationen.

Code: Select all

$ gcc --version
gcc (GCC) 15.2.0
Copyright (C) 2025 Free Software Foundation, Inc.

$ perf --version
perf version 4.18.0-553.84.1.el8_10.x86_64

$ lscpu | grep "Model name"
Model name:          Intel(R) Xeon(R) Gold 6430

$ lscpu | grep "L3 cache"
L3 cache:            61440K

1764200464

Anonymous

Ich habe den folgenden C-Code, den ich teste, um Leistung und Caching zu verstehen. Es greift nacheinander auf ein Array von Doubles zu.
[code]// test.c

#include 
#include 
#include 

int main(int argc, char **argv)
{
size_t n = 10000000;
double* arr;
if (posix_memalign((void**)&arr, 64, n * sizeof(double)) != 0) {
fprintf(stderr, "posix_memalign failed\n");
exit(1);
}

for (size_t i = 0; i < n; i += 64) {
_mm_clflush(&arr[i]);
}

for (size_t i = 0; i < n; i++) arr[i] = (double)i;

double sum = 0;
for (size_t i = 0; i < n; i++) sum += arr[i];

printf("Sum: %f\n", sum);
free(arr);

return 0;
}
[/code]
Ich kompiliere den Code ohne Optimierung und führe perf aus.
[code]$ gcc -o test test.c
$ perf stat -e LLC-loads,LLC-loads-misses -- ./test
Sum: 49999995000000.000000

Performance counter stats for 'test':

94,765      LLC-loads:u
91,979      LLC-loads-misses:u        #   97.06% of all LL-cache accesses

0.082974254 seconds time elapsed

0.047802000 seconds user
0.034893000 seconds sys
[/code]
Ein paar Fragen stellen mich vor ein Rätsel.
[list]
[*]Erstens sind die LLC-Lasten viel geringer als erwartet. Sollte es nahe bei 10000000/8 liegen (Cache-Zeile: 64 Byte)? Oder ist es möglich, dass nicht die gesamte Laufzeit profiliert wird?

[*]Zweitens und was noch wichtiger ist: Die Fehlerquote ist zu hoch. Ich gehe davon aus, dass jeder Lesefehler eine Cache-Zeile mit 8 Doubles mit sich bringt. Insgesamt sollte die Fehlschussquote also bei etwa 1/8 liegen? Eigentlich sollte es viel kleiner sein, da das Vorabholen in diesem Fall sehr hilfreich ist, oder?

[/list]
Übrigens, unten sind die grundlegenden Informationen.
[code]$ gcc --version
gcc (GCC) 15.2.0
Copyright (C) 2025 Free Software Foundation, Inc.

$ perf --version
perf version 4.18.0-553.84.1.el8_10.x86_64

$ lscpu | grep "Model name"
Model name:          Intel(R) Xeon(R) Gold 6430

$ lscpu | grep "L3 cache"
L3 cache:            61440K
[/code]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

„np.gradient“ weist eine hohe Varianz bei ungleichmäßigen Abständen auf

Last post by Guest « 14 Jan 2025, 13:02
Posted in Python

by Guest » 14 Jan 2025, 13:02 » in Python

Ich habe eine hohe Varianz in np.gradient für relativ glatte Daten festgestellt.
Angenommen, wir möchten dx/dt berechnen:
import numpy as np
import matplotlib.pyplot as plt
x = np.array( )
t =...

0 Replies

33 Views

Last post by Guest
14 Jan 2025, 13:02
Spring Boot mit Redis als Second-Level-Cache. Gibt es eine Möglichkeit, TTL für Cache-Einträge in Redis festzulegen, sod

Last post by Guest « 25 Jan 2025, 10:17
Posted in Java

by Guest » 25 Jan 2025, 10:17 » in Java

Ich verwende Spring Boot 3.x mit Redis und Redisson als Second-Level-Cache. Während die Anwendung ausgeführt wird, funktioniert alles wie erwartet. Wenn die Anwendung jedoch gestoppt wird, bleiben...

0 Replies

69 Views

Last post by Guest
25 Jan 2025, 10:17
So füllen Sie Cache mit neuen Werten, wenn der Abfrage -Cache abläuft: EHCache 3 und Hibernate 5

Last post by Guest « 09 Feb 2025, 10:20
Posted in Java

by Guest » 09 Feb 2025, 10:20 » in Java

Ich habe einen Abfrage -Cache namens RateScache, um das Ergebnis meines Datenbankanrufs zu speichern. Es macht einen neuen Anruf in die Datenbank:

30

1000000

Mein Rateentitäts -Cache hat...

0 Replies

40 Views

Last post by Guest
09 Feb 2025, 10:20
So füllen Sie Cache mit neuen Werten, wenn der Abfrage -Cache abläuft: EHCache 3 und Hibernate 5

Last post by Guest « 10 Feb 2025, 09:14
Posted in Java

by Guest » 10 Feb 2025, 09:14 » in Java

Ich habe einen Abfrage -Cache namens RateScache, um das Ergebnis meines Datenbankanrufs zu speichern. Es macht einen neuen Anruf in die Datenbank:

30

1000000

Mein Rateentitäts -Cache hat...

0 Replies

37 Views

Last post by Guest
10 Feb 2025, 09:14
Inkonsistenz des Cache -Zustands: Thread geht falsch davon aus, dass der Cache voll ist

Last post by Anonymous « 06 May 2025, 10:40
Posted in Python

by Anonymous » 06 May 2025, 10:40 » in Python

Ich arbeite mit einer Klasse namens CachedrandomiterDataset, die einen asynchronen Thread verwendet, um Daten aus einem Datensatz in einen Cache zu laden. Der Cache soll mit Daten gefüllt, gemischt...

0 Replies

18 Views

Last post by Anonymous
06 May 2025, 10:40

Return to “Linux”