PdfPig (https://github.com/UglyToad/PdfPig) mit
ausprobiert
Code: Select all
using PdfDocument document = PdfDocument.Open(stream, SkiaRenderingParsingOptions.Instance );
string ptxt = "";
foreach(PdfPath p in page.Paths)
ptxt += p.ToString();
Console.WriteLine(ptxt);
UglyToad.PdfPig.Graphics.PdfPath
Wie konvertiert man solche PDF-Dateien in einfachen Text? Wenn eine direkte Konvertierung nicht möglich ist, wie konvertiert man dann ein PDF in ein Bild, um es an OCR weiterzugeben?
PDFs können auch Textobjekte enthalten, aus denen Text direkt extrahiert werden kann.
PdfPig stellt eine Paths-Sammlung bereit, mit der jedes Path-Objekt abgerufen werden kann.
Wie konvertiert man jedes Path-Objekt in ein Bild? Der Quellcode des PDF Viewers sollte dies enthalten.
Wie verwende ich OpenCv oder SkiaSharp für diese Konvertierung?
Dies ist eine .NET 9 ASP.NET MVC-Anwendung.
Mobile version