Software extrahiert Texte aus PDFs

  • Das Text Extraction Toolkit (TET) der Münchener Software-Schmiede PDFlib verspricht, Texte aus beliebigen PDF-Dokumenten schnell und vor allem zuverlässig auszulesen. Laut Firmensprecher Karl Obermayr kommt PDFlib TET auch mit problematischen PDFs zurecht, an dem viele der gängigen Produkte scheiterten. "Für die systematischen Tests haben wir auf unsere mehrere Gigabyte große Sammlung problematischer PDF-Dateien zurückgegriffen", erläutert Obermayr.

    PDFlib TET gruppiert Textfragmente wieder zu Wörtern und Zeilen. Silbentrennungen werden dabei automatisch aufgehoben und sogar Ligaturen (zu einem Zeichen zusammengezogene Buchstabenverbindungen wie "ft") in ihre Bestandteile getrennt. Insbesondere soll die Software mehrspaltig gesetzten Text korrekt wiedergeben sowie Textartefakte erkennen und korrigieren, beispielsweise Buchstabenverdoppelungen zur Simulation von Fettdruck oder Schatten-Effekten.

    Die Ausgabe des Textes erfolgt in Unicode, wobei detaillierte Informationen über Font, Größe und Position einzelner Zeichen ermittelt werden. Formatierungen bleiben auf Wunsch erhalten -- beispielsweise für den XML-Export. "In manchen Fällen sieht ein solches Dokument hinterher optisch fast genauso aus wie die ursprüngliche PDF-Datei", erklärt Obermayr.

    PDFlib TET ist für Entwickler konzipiert und kann als Software-Bibliothek oder Kommandozeilen-Tool in diversen Entwicklungsumgebungen (C, C++, COM, .NET, Java) und auf verschiedenen Rechnerplattformen (Windows, Mac, Linux, Unix und Mainframes) eingesetzt werden. Nach Angaben des Herstellers werden sämtliche Versionen und Varianten des PDF-Standards unterstützt. Als Zielgruppe hat man bei PDFlib in erster Linie die Programmierer von Suchmaschinen oder Archivsystemen im Auge. Eine Lizenz für TET kostet je nach Plattform zwischen 250 und 1500 Euro. (Peter König) / (atr/c't)

    Quelle:heise.online.de
    Link:http://www.heise.de/newsticker/meldung/61535

    Gr33ts

    @Jacki:gmst:

    signatur_jack-sparrow.jpg

    Lebt in der Liebe,wie auch Christus uns geliebt hat.
      

    [ Epheser. 5,2 ]

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!