Erweitern Sie das verschachtelte JSON-Array innerhalb der Spalte im Pandas-Datenrahmen

Erweitern Sie das verschachtelte JSON-Array innerhalb der Spalte im Pandas-Datenrahmen ⇐ Python

1 post • Page 1 of 1

Guest

Erweitern Sie das verschachtelte JSON-Array innerhalb der Spalte im Pandas-Datenrahmen

Report
Quote

Post by Guest » 22 Dec 2024, 21:09

Ich habe JSON-Daten (die von Mongodb stammen), die Tausende von Datensätzen enthalten (also ein Array/eine Liste von JSON-Objekten) mit einer Struktur wie der folgenden für jedes Objekt:

{
"id":1,
"first_name":"Mead",
"last_name":"Lantaph",
"email":"[email protected]",
"gender":"Male",
"ip_address":"231.126.209.31",
"nested_array_to_expand":[
{
"property":"Quaxo",
"json_obj":{
"prop1":"Chevrolet",
"prop2":"Mercy Streets"
}
},
{
"property":"Blogpad",
"json_obj":{
"prop1":"Hyundai",
"prop2":"Flashback"
}
},
{
"property":"Yabox",
"json_obj":{
"prop1":"Nissan",
"prop2":"Welcome Mr. Marshall (Bienvenido Mister Marshall)"
}
}
]
}

Beim Laden in einen Datenrahmen ist „nested_array_to_expand“ eine Zeichenfolge, die den JSON enthält (ich verwende „json_normalize“ während des Ladens). Das erwartete Ergebnis besteht darin, einen Datenrahmen mit 3 Zeilen (im obigen Beispiel) und neuen Spalten für die verschachtelten Objekte wie unten zu erhalten:

index email first_name gender id ip_address last_name \
0 [email protected] Mead Male 1 231.126.209.31 Lantaph
1 [email protected] Mead Male 1 231.126.209.31 Lantaph
2 [email protected] Mead Male 1 231.126.209.31 Lantaph

test.name test.obj.ahah test.obj.buzz
0 Quaxo Mercy Streets Chevrolet
1 Blogpad Flashback Hyundai
2 Yabox Welcome Mr. Marshall (Bienvenido Mister Marshall) Nissan

Ich konnte dieses Ergebnis mit der folgenden Funktion erzielen, aber es war extrem langsam (ungefähr 2 Sekunden für 1.000 Datensätze), daher würde ich gerne entweder den vorhandenen Code verbessern oder einen finden völlig anderer Ansatz, um dieses Ergebnis zu erhalten.

def expand_field(field, df, parent_id='id'):
all_sub = pd.DataFrame()
# we need an id per row to be able to merge back dataframes
# if no id, then we will create one based on index of rows
if parent_id not in df:
df[parent_id] = df.index

# go through all rows and create a new dataframe with values
for i, row in df.iterrows():
try:
sub = json_normalize(df[field].values)
sub = sub.add_prefix(field + '.')
sub['parent_id'] = row[parent_id]
all_sub = all_sub.append(sub)
except:
print('crash')
pass
df = pd.merge(df, all_sub, left_on=parent_id, right_on='parent_id', how='left')
#remove old columns
del df["parent_id"]
del df[field]
#return expanded dataframe
return df

Vielen Dank für Ihre Hilfe.

===== EDIT für die Beantwortung des Kommentars ==== < /p>

Die von mongodb geladenen Daten sind ein Array von Objekten.
Ich lade sie mit dem folgenden Code:

data = json.loads(my_json_string)
df = json_normalize(data)

Die Ausgabe gibt mir einen Datenrahmen mit df["nested_array_to_expand"] als Dtype-Objekt (String)

0 [{'property': 'Quaxo', 'json_obj': {'prop1': '...
Name: nested_array_to_expand, dtype: object

1734898155

Guest

Ich habe JSON-Daten (die von Mongodb stammen), die Tausende von Datensätzen enthalten (also ein Array/eine Liste von JSON-Objekten) mit einer Struktur wie der folgenden für jedes Objekt:

{
"id":1,
"first_name":"Mead",
"last_name":"Lantaph",
"email":"[email protected]",
"gender":"Male",
"ip_address":"231.126.209.31",
"nested_array_to_expand":[
{
"property":"Quaxo",
"json_obj":{
"prop1":"Chevrolet",
"prop2":"Mercy Streets"
}
},
{
"property":"Blogpad",
"json_obj":{
"prop1":"Hyundai",
"prop2":"Flashback"
}
},
{
"property":"Yabox",
"json_obj":{
"prop1":"Nissan",
"prop2":"Welcome Mr. Marshall (Bienvenido Mister Marshall)"
}
}
]
}


Beim Laden in einen Datenrahmen ist „nested_array_to_expand“ eine Zeichenfolge, die den JSON enthält (ich verwende „json_normalize“ während des Ladens). Das erwartete Ergebnis besteht darin, einen Datenrahmen mit 3 Zeilen (im obigen Beispiel) und neuen Spalten für die verschachtelten Objekte wie unten zu erhalten:

index   email first_name gender  id      ip_address last_name  \
0  [email protected]       Mead   Male   1  231.126.209.31   Lantaph
1  [email protected]       Mead   Male   1  231.126.209.31   Lantaph
2  [email protected]       Mead   Male   1  231.126.209.31   Lantaph

test.name                                      test.obj.ahah test.obj.buzz
0     Quaxo                                      Mercy Streets     Chevrolet
1   Blogpad                                          Flashback       Hyundai
2     Yabox  Welcome Mr. Marshall (Bienvenido Mister Marshall)        Nissan


Ich konnte dieses Ergebnis mit der folgenden Funktion erzielen, aber es war extrem langsam (ungefähr 2 Sekunden für 1.000 Datensätze), daher würde ich gerne entweder den vorhandenen Code verbessern oder einen finden völlig anderer Ansatz, um dieses Ergebnis zu erhalten.

def expand_field(field, df, parent_id='id'):
all_sub = pd.DataFrame()
# we need an id per row to be able to merge back dataframes
# if no id, then we will create one based on index of rows
if parent_id not in df:
df[parent_id] = df.index

# go through all rows and create a new dataframe with values
for i, row in df.iterrows():
try:
sub = json_normalize(df[field].values[i])
sub = sub.add_prefix(field + '.')
sub['parent_id'] = row[parent_id]
all_sub = all_sub.append(sub)
except:
print('crash')
pass
df = pd.merge(df, all_sub, left_on=parent_id, right_on='parent_id', how='left')
#remove old columns
del df["parent_id"]
del df[field]
#return expanded dataframe
return df


Vielen Dank für Ihre Hilfe.

===== EDIT für die Beantwortung des Kommentars ==== < /p>

Die von mongodb geladenen Daten sind ein Array von Objekten.
Ich lade sie mit dem folgenden Code:

data = json.loads(my_json_string)
df = json_normalize(data)


Die Ausgabe gibt mir einen Datenrahmen mit df["nested_array_to_expand"] als Dtype-Objekt (String) 

0    [{'property': 'Quaxo', 'json_obj': {'prop1': '...
Name: nested_array_to_expand, dtype: object

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie extrahiere ich ein Substring aus einer Spalte in einem Datenrahmen, das in der Spalte aus einem anderen Datenrahmen

Last post by Anonymous « 25 Apr 2025, 09:21
Posted in Python

by Anonymous » 25 Apr 2025, 09:21 » in Python

Ich habe eine Lösung aus meinem Problem gefunden, aber es ist eindeutig die dumm und ineffizienteste. Ich hatte gehofft, dass mir jemand bei einer richtigen Lösung helfen könnte.
Ich habe zwei...

0 Replies

70 Views

Last post by Anonymous
25 Apr 2025, 09:21
Gruppieren Sie 2D-Array-Zeilen nach einer Spalte und summieren Sie eine andere Spalte innerhalb jeder Gruppe [Duplikat]

Last post by Guest « 04 Jan 2025, 05:54
Posted in Php

by Guest » 04 Jan 2025, 05:54 » in Php

Ich habe ein Array:
Array
(
=> Array
(
=> 2
=> 1
=> Name 1
=> Model 1
=> Color: Black (+10$). Memory: 32GB (+99$).
=> 209.00
)

=> Array
(
=> 1
=> 1
=> Name 1
=> Model 1
=> Color: Black...

0 Replies

80 Views

Last post by Guest
04 Jan 2025, 05:54
Wie kann ich in einem Datenrahmen in Pandas ein Kreuz-TAB von zwei Spalten in einem Datenrahmen erstellen und eine Gesam

Last post by Anonymous « 01 Mar 2025, 15:44
Posted in Python

by Anonymous » 01 Mar 2025, 15:44 » in Python

Ich habe einen Datenrahmen aus einer CSV-Datei erstellt und versuche jetzt, ein Kreuz-TAB von zwei Spalten ( Personal_status und Geschlecht ) zu erstellen. Die Ausgabe sollte so aussehen,...

0 Replies

61 Views

Last post by Anonymous
01 Mar 2025, 15:44
So drücken Sie JSON -Werte mit Python nach eins von JSON -Array von JSON Array auf die API.

Last post by Anonymous « 23 Feb 2025, 16:58
Posted in Python

by Anonymous » 23 Feb 2025, 16:58 » in Python

Ich habe eine .json Datei mit einigen JSON -Daten wie unten,

main.json

Mein Problem ist, wie ich diesen folgenden Code an API
analysiere und auch die Werte einzeln analysieren möchte:
{...

0 Replies

94 Views

Last post by Anonymous
23 Feb 2025, 16:58
Erweitern Sie den Datenrahmen und sortieren Sie dann basierend auf der Wertereihenfolge in der ersten Zeile

Last post by Anonymous « 17 Mar 2025, 01:25
Posted in Python

by Anonymous » 17 Mar 2025, 01:25 » in Python

Suppose I have a dataframe with the following format of strings separated by commas:

index
columnName

0
apple,peach,orange,pear,

1
orange, pear,apple

2
pear

3
peach,apple

4
orange...

0 Replies

29 Views

Last post by Anonymous
17 Mar 2025, 01:25

Return to “Python”