Azure Documen Intelligence Python SDK trennen keine SeitenPython

Python-Programme
Anonymous
 Azure Documen Intelligence Python SDK trennen keine Seiten

Post by Anonymous »

Beim Versuch, Inhalte aus einer MS -Word -.docx -Datei mithilfe von Azure Document Intelligence zu extrahieren, erwartete ich, dass die zurückgegebene Antwort ein Seitenelement für jede Seite im Dokument enthält, und dass jede dieser Seitenelemente mehrere Zeilen in Übereinstimmung mit der Dokumentation enthält.

Code: Select all

None
) Zeilen und das gesamte Dokumentinhalt als eine Liste von Wörtern. PrettyPrint-Override ">

Code: Select all

from azure.core.credentials import AzureKeyCredential
from azure.ai.documentintelligence import DocumentIntelligenceClient
from azure.ai.documentintelligence.models import DocumentAnalysisFeature, AnalyzeResult, AnalyzeDocumentRequest

def main():
client = DocumentIntelligenceClient(
'MY ENDPOINT',
AzureKeyCredential('MY KEY')
)

document = 'small_test_document.docx'

with open(document, "rb") as f:
poller = client.begin_analyze_document(
"prebuilt-layout",
analyze_request=f,
content_type="application/octet-stream"
)
result = poller.result()

print(f'Found {len(result.pages)} page(s)')
for page in result.pages:
print(f'Page #{page.page_number}')
print(f'  {page.lines=}')
print(f'  {len(page.words)=}')

if __name__ == '__main__':
main()
< /code>
Erwartete Ausgabe: < /p>
Found 2 page(s)
Page #1
page.lines=6
len(page.words)=58
Page #2
page.lines=1
len(page.words)=8
< /code>
Tatsächliche Ausgabe: < /p>
Found 1 page(s)
Page #1
page.lines=None
len(page.words)=66
Meine Frage lautet: Warum und was soll ich anders machen, um die erwartete Ausgabe zu erhalten?

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post