Ich habe eine Pipeline, in der ich mit Python PowerPoint (PPTX) -Dateien einnehmen muss. Diese Dateien haben meist Text, haben gelegentlich Tabellen und haben nicht immer das gleiche Format und/oder das gleiche Design. Ich muss diese Daten extrahieren, einschließlich der [meistens Text] -Zellenwerte von Tabellen, wenn sie vorhanden sind, und schließlich in eine Tabelle mit Präsentationsname, Präsentationsdatum und einem kostenlosen Textfeld des PPT-Inhalts einsteigen.for slide_number, slide in enumerate(presentation.slides):
print(f"Slide {slide_number + 1}:")
for shape in slide.shapes:
if hasattr(shape, "text"):
print(shape.text)
< /code>
Frage lautet: Was ist der beste Weg, um Tabellen mit diesem Modul (oder einem anderen leichten Tool) zu schnappen? Ich habe Dokumentation für das Modul durchgesehen, aber eine offensichtliche Lösung hat sich nicht vorgestellt, da die Tabellen überall erscheinen können.
Wie verwendet ich Python-PPTX, um seltene Tische zu extrahieren? ⇐ Python
-
- Similar Topics
- Replies
- Views
- Last post