So konvertieren Sie Pfade in einer PDF-Datei in TextC#

Ein Treffpunkt für C#-Programmierer
Anonymous
 So konvertieren Sie Pfade in einer PDF-Datei in Text

Post by Anonymous »

PDF-Dateien enthalten weder Bilder noch Text. Der auf der Seite sichtbare Text wird als Pfad gerendert.
PdfPig (https://github.com/UglyToad/PdfPig) mit
ausprobiert

Code: Select all

using PdfDocument document = PdfDocument.Open(stream, SkiaRenderingParsingOptions.Instance );
string ptxt = "";
foreach(PdfPath p in page.Paths)
ptxt += p.ToString();
Console.WriteLine(ptxt);
Die Ausgabe ist

UglyToad.PdfPig.Graphics.PdfPath

Wie konvertiert man solche PDF-Dateien in einfachen Text? Wenn eine direkte Konvertierung nicht möglich ist, wie konvertiert man dann ein PDF in ein Bild, um es an OCR weiterzugeben?
PDFs können auch Textobjekte enthalten, aus denen Text direkt extrahiert werden kann.
PdfPig stellt eine Paths-Sammlung bereit, mit der jedes Path-Objekt abgerufen werden kann.
Wie konvertiert man jedes Path-Objekt in ein Bild? Der Quellcode des PDF Viewers sollte dies enthalten.
Wie verwende ich OpenCv oder SkiaSharp für diese Konvertierung?
Dies ist eine .NET 9 ASP.NET MVC-Anwendung.

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post