Wie extrahiere ich Gujarati-Text und mathematische Symbole korrekt aus PDF mit iText7 in C#? [geschlossen]C#

Ein Treffpunkt für C#-Programmierer
Anonymous
 Wie extrahiere ich Gujarati-Text und mathematische Symbole korrekt aus PDF mit iText7 in C#? [geschlossen]

Post by Anonymous »

Meine PDF-Datei enthält Gujarati-Text, Englisch, mathematische Formeln und Chemiesymbole. Diese Unicode-Zeichen werden nicht korrekt extrahiert.
Wenn ich Text mit iText7 extrahiere, werden Gujarati-Zeichen durch nicht lesbaren Text ersetzt.
Mein C#-Programm:

Code: Select all

using (var pdfReader = new PdfReader(file.OpenReadStream()))
using (var pdfDoc = new iText.Kernel.Pdf.PdfDocument(pdfReader){
var sb = new StringBuilder();
for (int page = 1; page

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post