Gibt es eine Möglichkeit, eine einzelne Zeile im Dask -DataFrame zu extrahieren, ohne sehr lange zu dauern?Python

Python-Programme
Guest
 Gibt es eine Möglichkeit, eine einzelne Zeile im Dask -DataFrame zu extrahieren, ohne sehr lange zu dauern?

Post by Guest »

Ich versuche, eine Zeile eines bekannten Index aus einem 10 -GB -Datenrahmen mit Dask zu ziehen. Verwenden Sie jedoch den folgenden Code: < /p>
print(df.loc[whatever_index].compute())
< /code>
gibt viele Zeilen aus, die ich nicht brauche, und dauern dabei eine Milliarde Jahre: < /p>
#where the rows that I need is
(array([ 0, 8895729], dtype=int64),)

#row I actually need
[['2222bRQqBTZ6dLnPH' '32757157_6999801415950060.0' 6999801415950060.0
... 0.0 0.0 0.0]

# rows I DO NOT need
['2dcKbuRbJRC8xKBgX' '873541557_5138601535525683.0' 5138601535525680.0
... 0.0 0.0 0.0]
['3EGBdABjWFQ4pi2kr' '-353198890_4997850204430685.0' 4997850204430690.0
... 0.0 0.0 0.0]
...
['yByK6GoQbgJT6PT6Z' '-1348409780_7393929917828936.0' 7393929917828940.0
... 0.0 0.0 0.0]
['yoGqKJPbvRteeGNsR' '2000840730_8953705558014711.0' 8953705558014710.0
... 1.0 0.0 0.0]
['zPbagof9vihmao7Rn' '1884103540_2921246353.0' 2921246353.0 ... 0.0 0.0
0.0]]
[]
< /code>
Wie kann ich die Zeile nur durch reguläre Indizierung extrahieren? Ich weiß, dass Pandas die ILOC -Funktion haben, aber gibt es in der Last etwas Ähnliches? < /P>
Ich habe Pandas (Speicherfehler) und andere Alternativen ausprobiert. Das Pandas Iloc wäre eine Lösung, wenn es in Dask vorhanden wäre, was es nicht tut. Die LOC -Funktion gibt auch viele Zeilen zurück, die alle den Index 0 haben, von dem ich nicht weiß, wie das funktioniert. .

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post