Wie kann eine Speicherduplizierung pro Prozess vermieden werden, wenn Rapidgzip mit Multiprocessing in Python verwendet

Wie kann eine Speicherduplizierung pro Prozess vermieden werden, wenn Rapidgzip mit Multiprocessing in Python verwendet ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Wie kann eine Speicherduplizierung pro Prozess vermieden werden, wenn Rapidgzip mit Multiprocessing in Python verwendet

Report
Quote

Post by Anonymous » 29 Nov 2025, 11:56

Ich habe eine Python-Datei:

Code: Select all

from concurrent.futures import ProcessPoolExecutor
import tarfile, rapidgzip

def processNdjson(ndjsonName):
with rapidgzip.open(inTarDir) as myZip:
myZip.import_index(rapidgzipDir)
with tarfile.open(fileobj=myZip, mode="r:*") as f:
member = f.getmember(ndjsonName)
dataFile = f.extractfile(member)
for oneLine in dataFile:
# process oneLine here

if __name__ == "__main__":
inTarDir = ...
rapidgzipDir = ...
nCore = 5
ndjsonNames = ["name1.ndjson", "name2.ndjson"]

with ProcessPoolExecutor(nCore) as pool:
results = pool.map(worker, ndjsonNames)

Oben

Code: Select all
```
inTarDir
```
ist das Verzeichnis einer .tar.gz-Datei, die mehrere .ndjson-Dateien enthält.
Code: Select all
```
rapidgzipDir
```
ist die von rapidgzip zu verwendende Vorindexdatei. Dies ermöglicht einen schnellen Direktzugriff und ist ein direkter Ersatz für die in Python integrierte gzip.GzipFile.
Jeder Prozess wird

Code: Select all

with rapidgzip.open(inTarDir) as myZip:
myZip.import_index(rapidgzipDir)
with tarfile.open(fileobj=myZip, mode="r:*") as f:

Meine Sorge: Jeder Befehl myZip.import_index(rapidgzipDir) beansprucht eine bestimmte Menge RAM (z. B. 500 MB für eine 20 GB große .tar.gz-Datei). Dies wird linear mit nCore wachsen.
Gibt es eine Möglichkeit, den mehrfachen Import desselben rapidgzipDir zu vermeiden?

1764413816

Anonymous

Ich habe eine Python-Datei:
[code]from concurrent.futures import ProcessPoolExecutor
import tarfile, rapidgzip

def processNdjson(ndjsonName):
with rapidgzip.open(inTarDir) as myZip:
myZip.import_index(rapidgzipDir)
with tarfile.open(fileobj=myZip, mode="r:*") as f:
member = f.getmember(ndjsonName)
dataFile = f.extractfile(member)
for oneLine in dataFile:
# process oneLine here

if __name__ == "__main__":
inTarDir = ...
rapidgzipDir = ...
nCore = 5
ndjsonNames = ["name1.ndjson", "name2.ndjson"]

with ProcessPoolExecutor(nCore) as pool:
results = pool.map(worker, ndjsonNames)
[/code]
Oben
[list]
[*][code]inTarDir[/code] ist das Verzeichnis einer .tar.gz-Datei, die mehrere .ndjson-Dateien enthält.
[*][code]rapidgzipDir[/code] ist die von rapidgzip zu verwendende Vorindexdatei. Dies ermöglicht einen schnellen Direktzugriff und ist ein direkter Ersatz für die in Python integrierte gzip.GzipFile.
[*]Jeder Prozess wird
[/list]
[code]with rapidgzip.open(inTarDir) as myZip:
myZip.import_index(rapidgzipDir)
with tarfile.open(fileobj=myZip, mode="r:*") as f:
[/code]
Meine Sorge: Jeder Befehl myZip.import_index(rapidgzipDir) beansprucht eine bestimmte Menge RAM (z. B. 500 MB für eine 20 GB große .tar.gz-Datei). Dies wird linear mit nCore wachsen.
Gibt es eine Möglichkeit, den mehrfachen Import desselben rapidgzipDir zu vermeiden?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie kann vermieden werden, dass der Stil „-internal-autofill-selected“ angewendet wird?

Last post by Anonymous « 29 Oct 2025, 13:22
Posted in CSS

by Anonymous » 29 Oct 2025, 13:22 » in CSS

Ich habe ein Anmeldeformular mit 2 Feldern, Benutzername und Passwort. Das Feld „Benutzername“ wird von Chrome automatisch ausgefüllt. Wenn ich das Formular absende (sofern es gültig ist), wird auf...

0 Replies

1 Views

Last post by Anonymous
29 Oct 2025, 13:22
Visual Studio: Automatisch an einen Prozess anhängen, wenn der Prozess hervorgebracht wird

Last post by Anonymous « 21 Aug 2025, 03:11
Posted in C#

by Anonymous » 21 Aug 2025, 03:11 » in C#

Ich möchte an einen Prozess (A.exe) anhängen, sobald es hervorgebracht wird. Ist es mit VS machbar? Ich kenne nur den Namen des Prozesses. Eigentlich möchte ich einen Breakpoint in C# Code festlegen,...

0 Replies

4 Views

Last post by Anonymous
21 Aug 2025, 03:11
Multiprocessing.Queue Steckt in einem Thread in einem anderen Prozess fest

Last post by Anonymous « 12 Nov 2025, 12:19
Posted in Python

by Anonymous » 12 Nov 2025, 12:19 » in Python

import time
from threading import Thread
from multiprocessing import Process, Queue

class ProcessClasses:

def __init__(self, get_config_queue=None,):

self.get_config_queue = get_config_queue...

0 Replies

7 Views

Last post by Anonymous
12 Nov 2025, 12:19
Verwenden einer Klasse als Objekt in einer anderen Klasse in C ++, bei der kreisförmige Abhängigkeit vermieden wird

Last post by Anonymous « 30 Sep 2025, 21:06
Posted in C++

by Anonymous » 30 Sep 2025, 21:06 » in C++

In Anbetracht meines Szenarios haben wir 2 Klassen (in Java):
enum Priv {
NONE, USER, ADMIN
}

public final class SystemInfo {
String name, os;
List services = new ArrayList();
List creds = new...

0 Replies

11 Views

Last post by Anonymous
30 Sep 2025, 21:06
Was wäre der beste Weg, um einen abgelösten Prozess aus einem Python -Prozess zu starten?

Last post by Anonymous « 16 Mar 2025, 17:17
Posted in Python

by Anonymous » 16 Mar 2025, 17:17 » in Python

Ich habe eine Fastapi-Anwendung und möchte einen anderen Prozess mit einem Python-Skript auf nicht blockierende Weise starten:
process = subprocess.Popen(
,
stdout=subprocess.DEVNULL,...

0 Replies

36 Views

Last post by Anonymous
16 Mar 2025, 17:17

Return to “Python”