Extrahieren von Text aus PDF-Dateien und spätere Wiederverwendung mithilfe von Workflows

By Nishanth Asokan | Automatisierung

Extrahieren von Text aus PDF-Dateien und spätere Wiederverwendung mithilfe von Workflows

Digitale Dokumente ersetzen sehr schnell die traditionellen Papierdokumente. Heutzutage erhalten wir viele von ihnen als PDF-Dateien. PDF-Dokumente wie Verträge, Rechtsdokumente oder digitale Bücher können Hunderte oder Tausende von Seiten umfassen. Wir automatisieren viele dieser Dokumente. Vielleicht wollen wir Text aus einem bestimmten Bereich einer PDF-Datei kopieren. Es kann auch sein, dass wir diesen Text zu einem späteren Zeitpunkt bei der Verarbeitung der PDF-Datei verwenden müssen. Nun, wir haben die perfekte Lösung für Sie. Die PDF4me-Workflow-Aktionen erfüllen alle diese Dokumentlogiken.

Verwenden Sie die Aktion Text extrahieren aus PDF4me Workflows, um den Prozess der Extraktion von Textdaten aus PDF-Dokumenten zu automatisieren. Darüber hinaus können Sie zusätzliche Schritte verwenden, um diese Daten zu einem späteren Zeitpunkt teilweise oder vollständig wiederzuverwenden. Schauen wir uns einen Beispiel-Workflow an, bei dem wir Text aus einem PDF-Dokument extrahieren und ihn später zur Umbenennung der Datei verwenden.

Wie extrahiere ich Text aus einer PDF-Datei zur Wiederverwendung?

Ohne zusätzliche Integration können Sie einen Workflow konfigurieren, um automatisch Text aus einer PDF-Datei zu extrahieren. Schauen wir uns anhand eines Beispiel-Workflows an, wie wir die Extraktion und Umbenennung von PDF-Text automatisieren können.

Fügen Sie einen Auslöser hinzu, um Ihren Workflow zu starten

Fügen Sie einen Auslöser hinzu, um Ihre Automatisierung in Gang zu setzen. Derzeit bieten Workflows 2 Auslöser. Dropbox und Google Drive. Lassen Sie uns z. B. einen Dropbox-Auslöser erstellen.

Konfigurieren Sie die Verbindung und wählen Sie den Ordner, in dem die Eingabedateien erwartet werden.

Dropbox-Auslöser für die Aktion Text extrahieren

Aktion Text extrahieren hinzufügen

Fügen Sie die Aktion Text extrahieren hinzu und aktivieren Sie die Aktion. Die Aktion extrahiert den gesamten Text aus der PDF-Datei. Wenn Sie jede Seite einzeln extrahieren möchten, fügen Sie bitte eine PDF aufteilen Aktion vor der Aktion Extrahieren ein. Fügen Sie außerdem die Aktion Text extrahieren innerhalb des Steuerelements Für jedes Steuerelement hinzu.

Hinzufügen und Aktivieren der Aktion Text extrahieren

Hinzufügen einer Aktion zum Speichern

Die Ausgabedateien müssen in einem Cloud-Speicher gespeichert werden. In unserem Anwendungsfall konfigurieren wir eine Aktion Speichern in Dropbox. *Sie können einen regulären Ausdruck verwenden, um einen bestimmten Text aus der Aktion “Text extrahieren” zu erhalten. Sie können den unten angegebenen regulären Ausdruck in den Parameter “Name der Ausgabedatei” kopieren und die Bedingung für die Übereinstimmung mit dem erforderlichen Text hinzufügen.

${file.pages[0].PageText.match(<condition>).pdf

Dropbox-Aktion mit regulärem Ausdruck speichern

Der Ausdruck übergibt den der Bedingung entsprechenden Text aus der PDF-Datei an den Parameter für den Ausgabedateinamen, so dass die Dateien auf der Grundlage des gelesenen Textes umbenannt werden.

Eine Probe zum Ausprobieren

Schauen wir uns einen Arbeitsablauf an, um Text aus einer PDF-Beispielrechnung zu extrahieren und einen bestimmten Teil des Textes - die Rechnungsnummer - zu verwenden, um die PDF-Datei umzubenennen, bevor sie in der Cloud gespeichert wird.

PDF-Musterrechnung zum Extrahieren von Text

Schauen wir uns kurz die Schritte an -

  1. Fügen Sie den Auslöser Ihrer Wahl hinzu und konfigurieren Sie ihn
  2. Fügen Sie die Aktion Text extrahieren hinzu und aktivieren Sie sie.
  3. Laden Sie die Beispiel-PDF-Rechnung in den Quellordner des Auslösers hoch - Beispieldatei herunterladen{target=_blank}
  4. Fügen Sie den Speicherort hinzu, in dem Sie die Datei speichern möchten, und geben Sie im Parameter für den Namen der Ausgabedatei den folgenden regulären Ausdruck ein -

${file.pages[0].PageText.match('INVOICE #(.*)')[1].trim()}.pdf

Beispiel-Workflow zum Extrahieren von Text und Umbenennen von PDF

Der oben beschriebene Arbeitsablauf extrahiert den Text aus der PDF-Datei, schneidet den gewünschten Teil zu und benennt die Datei um, bevor sie gespeichert wird.

Um Zugang zu Workflows zu erhalten, benötigen Sie ein PDF4me-Abonnement. Sie können sich sogar einen Tagespass besorgen und Workflows ausprobieren, um zu sehen, wie sie Ihnen helfen können, Ihre Dokumentenaufträge zu automatisieren.

Related Blog Posts