Effizientes Verarbeiten von Millionen von Dateien in einer .NET 8 -Konsolen -App auf Debian Docker (Linux Mounted Window

Effizientes Verarbeiten von Millionen von Dateien in einer .NET 8 -Konsolen -App auf Debian Docker (Linux Mounted Window ⇐ C#

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Effizientes Verarbeiten von Millionen von Dateien in einer .NET 8 -Konsolen -App auf Debian Docker (Linux Mounted Window

Report
Quote

Post by Anonymous » 22 May 2025, 12:08

Ich arbeite an einer .NET 8-Konsolenanwendung, die in einem Debian-basierten Docker-Container ausgeführt wird, das ein Linux-montiertes Windows Share-Dateisystem durchsucht. Die Anwendung muss 2–3 Millionen Dateien effizient verarbeiten.

Code: Select all

var fileBatches = PartitionFiles(Directory.EnumerateFiles(scanPath, "*", SearchOption.AllDirectories), 10000);
await ProcessFileBatchesOptimizedAsync(fileBatches, cancellationToken);

Partitionierungslogik:

Code: Select all

private static IEnumerable PartitionFiles(IEnumerable files, int batchSize)
{
List batch = new List(batchSize);

foreach (var file in files)
{
batch.Add(file);

if (batch.Count >= batchSize)
{
yield return batch;
batch = new List(batchSize);
}
}

if (batch.Count > 0)
{
yield return batch;
}
}

Verarbeitungslogik:
private async Task ProcessFileBatchesOptimizedAsync(IEnumerable fileBatches, CancellationToken cancellationToken)
{
List tasks = new List();

foreach (var fileBatch in fileBatches)
{
tasks.Add(Task.Run(async () =>
{
await ExtractFileMetadataAndSaveToDB(fileBatch);
}, cancellationToken));
}

await Task.WhenAll(tasks);
}
< /code>
Problem: < /strong>
Die Ertragsrendite in Partitionsfiles verursacht einen Leistungs Engpass. Die Foreach in ProcessFileBatchesoptimizedAsync wartet zu lange auf den Partitioner, und ironischerweise werden die Dateiverarbeitungsaufgaben schneller abgeschlossen als Chargen. Dies führt dazu, dass Aufgaben fast nacheinander ausgeführt werden und den Zweck der Parallelität besiegen. Eine ähnliche Leistung, wie der Produzent (Batching -Dateien) langsamer ist als der Verbraucher (verarbeitet sie). Schlechtere Leistung aufgrund von zweistufiger Verzeichnisabruf und dann Dateiabruf. Leichte Verbesserung, aber hoher Speicherverbrauch, der bei Millionen von Dateien problematisch sein könnte. /> Fragen Sie: < /strong>
Was ist eine effizientere Möglichkeit, 2–3 Mio. Dateien gleichzeitig zu scannen und zu verarbeiten, und vermeiden Sie den Ertragsgutgpass, ohne alle Pfade in den Speicher zu laden.>

1747908516

Anonymous

Ich arbeite an einer .NET 8-Konsolenanwendung, die in einem Debian-basierten Docker-Container ausgeführt wird, das ein Linux-montiertes Windows Share-Dateisystem durchsucht. Die Anwendung muss 2–3 Millionen Dateien effizient verarbeiten.[code]var fileBatches = PartitionFiles(Directory.EnumerateFiles(scanPath, "*", SearchOption.AllDirectories), 10000);
await ProcessFileBatchesOptimizedAsync(fileBatches, cancellationToken);
[/code]
[b] Partitionierungslogik: [/b] 
[code]private static IEnumerable PartitionFiles(IEnumerable files, int batchSize)
{
List batch = new List(batchSize);

foreach (var file in files)
{
batch.Add(file);

if (batch.Count >= batchSize)
{
yield return batch;
batch = new List(batchSize);
}
}

if (batch.Count > 0)
{
yield return batch;
}
}
[/code]
[b] Verarbeitungslogik: [/b] 
private async Task ProcessFileBatchesOptimizedAsync(IEnumerable fileBatches, CancellationToken cancellationToken)
{
List tasks = new List();

foreach (var fileBatch in fileBatches)
{
tasks.Add(Task.Run(async () =>
{
await ExtractFileMetadataAndSaveToDB(fileBatch);
}, cancellationToken));
}

await Task.WhenAll(tasks);
}
< /code>
 Problem: < /strong>
Die Ertragsrendite in Partitionsfiles verursacht einen Leistungs Engpass. Die Foreach in ProcessFileBatchesoptimizedAsync wartet zu lange auf den Partitioner, und ironischerweise werden die Dateiverarbeitungsaufgaben schneller abgeschlossen als Chargen. Dies führt dazu, dass Aufgaben fast nacheinander ausgeführt werden und den Zweck der Parallelität besiegen. Eine ähnliche Leistung, wie der Produzent (Batching -Dateien) langsamer ist als der Verbraucher (verarbeitet sie). Schlechtere Leistung aufgrund von zweistufiger Verzeichnisabruf und dann Dateiabruf. Leichte Verbesserung, aber hoher Speicherverbrauch, der bei Millionen von Dateien problematisch sein könnte. />   Fragen Sie: < /strong>
Was ist eine effizientere Möglichkeit, 2–3 Mio. Dateien gleichzeitig zu scannen und zu verarbeiten, und [url=viewtopic.php?t=15143]vermeiden[/url] Sie den Ertragsgutgpass, ohne alle Pfade in den Speicher zu laden.>

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Effizientes Verarbeiten von Millionen von Dateien in einer .NET 8 -Konsolen -App auf Debian Docker (Linux Mounted Window

Last post by Anonymous « 22 May 2025, 16:51
Posted in C#

by Anonymous » 22 May 2025, 16:51 » in C#

Ich arbeite an einer .NET 8-Konsolenanwendung, die in einem Debian-basierten Docker-Container ausgeführt wird, das ein Linux-montiertes Windows Share-Dateisystem durchsucht. Die Anwendung muss 2–3...

0 Replies

4 Views

Last post by Anonymous
22 May 2025, 16:51
Effizientes Verarbeiten von Millionen von Dateien in einer .NET 8 -Konsolen -App auf Debian Docker (Linux Mounted Window

Last post by Anonymous « 22 May 2025, 22:55
Posted in C#

by Anonymous » 22 May 2025, 22:55 » in C#

Ich arbeite an einer .NET 8-Konsolenanwendung, die in einem Debian-basierten Docker-Container ausgeführt wird, das ein Linux-montiertes Windows Share-Dateisystem durchsucht. Die Anwendung muss 2–3...

0 Replies

7 Views

Last post by Anonymous
22 May 2025, 22:55
Wie kann ich Autodaten aus einer CSV -Datei lesen und die Kraftstoffkosten in einer C# .NET -Konsolen -App berechnen? [g

Last post by Anonymous « 18 May 2025, 23:00
Posted in C#

by Anonymous » 18 May 2025, 23:00 » in C#

ein cars.cs
public class Auto
{
public int Id { get; set; }
public string Brand { get; set; }
public int Year { get; set; }
public int Price
{
get; set;
}

public Auto(int id, string brand, int...

0 Replies

5 Views

Last post by Anonymous
18 May 2025, 23:00
.NET Core 3.1 Konsolen -App -Hosting Optionale Web -API für die Steuerung

Last post by Anonymous « 13 Apr 2025, 21:26
Posted in C#

by Anonymous » 13 Apr 2025, 21:26 » in C#

Ich schreibe eine Konsolen -App in .NET Core 3.1. Es ist bereits so konfiguriert, dass die Abhängigkeitsinjektion mit Microsoft.EXTENSIONS.DependencyInjection auf folgende Weise verwendet wird:...

0 Replies

13 Views

Last post by Anonymous
13 Apr 2025, 21:26
Wie fange ich die Kontroll-C-Ausnahme in einer visuellen C ++-Konsolen-App auf?

Last post by Anonymous « 19 Aug 2025, 17:48
Posted in C++

by Anonymous » 19 Aug 2025, 17:48 » in C++

Dies scheint einfach zu sein, aber ich habe beide

ausprobierttry {} catch (...) {} C ++ Ausnahmehandling und

__try {} __finally {} Strukturierte Ausnahmeregelung (SEH)

Und keiner wird die Ausnahme...

0 Replies

4 Views

Last post by Anonymous
19 Aug 2025, 17:48

Return to “C#”