Extrahieren von Text aus PDF-Dateien und spätere Wiederverwendung mithilfe von Workflows
Digitale Dokumente ersetzen sehr schnell die traditionellen Papierdokumente. Heutzutage erhalten wir viele von ihnen als PDF-Dateien. PDF-Dokumente wie Verträge, Rechtsdokumente oder digitale Bücher können Hunderte oder Tausende von Seiten umfassen. Wir automatisieren viele dieser Dokumente. Vielleicht wollen wir Text aus einem bestimmten Bereich einer PDF-Datei kopieren. Es kann auch sein, dass wir diesen Text zu einem späteren Zeitpunkt bei der Verarbeitung der PDF-Datei verwenden müssen. Nun, wir haben die perfekte Lösung für Sie. Die PDF4me-Workflow-Aktionen erfüllen alle diese Dokumentlogiken.
Verwenden Sie die Aktion Text extrahieren aus PDF4me Workflows, um den Prozess der Extraktion von Textdaten aus PDF-Dokumenten zu automatisieren. Darüber hinaus können Sie zusätzliche Schritte verwenden, um diese Daten zu einem späteren Zeitpunkt teilweise oder vollständig wiederzuverwenden. Schauen wir uns einen Beispiel-Workflow an, bei dem wir Text aus einem PDF-Dokument extrahieren und ihn später zur Umbenennung der Datei verwenden.
Wie extrahiere ich Text aus einer PDF-Datei zur Wiederverwendung?
Ohne zusätzliche Integration können Sie einen Workflow konfigurieren, um automatisch Text aus einer PDF-Datei zu extrahieren. Schauen wir uns anhand eines Beispiel-Workflows an, wie wir die Extraktion und Umbenennung von PDF-Text automatisieren können.
Fügen Sie einen Auslöser hinzu, um Ihren Workflow zu starten
Fügen Sie einen Auslöser hinzu, um Ihre Automatisierung in Gang zu setzen. Derzeit bieten Workflows 2 Auslöser. Dropbox und Google Drive. Lassen Sie uns z. B. einen Dropbox-Auslöser erstellen.
Konfigurieren Sie die Verbindung und wählen Sie den Ordner, in dem die Eingabedateien erwartet werden.
Aktion Text extrahieren hinzufügen
Fügen Sie die Aktion Text extrahieren hinzu und aktivieren Sie die Aktion. Die Aktion extrahiert den gesamten Text aus der PDF-Datei. Wenn Sie jede Seite einzeln extrahieren möchten, fügen Sie bitte eine PDF aufteilen Aktion vor der Aktion Extrahieren ein. Fügen Sie außerdem die Aktion Text extrahieren innerhalb des Steuerelements Für jedes Steuerelement hinzu.
Hinzufügen einer Aktion zum Speichern
Die Ausgabedateien müssen in einem Cloud-Speicher gespeichert werden. In unserem Anwendungsfall konfigurieren wir eine Aktion Speichern in Dropbox. *Sie können einen regulären Ausdruck verwenden, um einen bestimmten Text aus der Aktion “Text extrahieren” zu erhalten. Sie können den unten angegebenen regulären Ausdruck in den Parameter “Name der Ausgabedatei” kopieren und die Bedingung für die Übereinstimmung mit dem erforderlichen Text hinzufügen.
${file.pages[0].PageText.match(<condition>).pdf
Der Ausdruck übergibt den der Bedingung entsprechenden Text aus der PDF-Datei an den Parameter für den Ausgabedateinamen, so dass die Dateien auf der Grundlage des gelesenen Textes umbenannt werden.
Eine Probe zum Ausprobieren
Schauen wir uns einen Arbeitsablauf an, um Text aus einer PDF-Beispielrechnung zu extrahieren und einen bestimmten Teil des Textes - die Rechnungsnummer - zu verwenden, um die PDF-Datei umzubenennen, bevor sie in der Cloud gespeichert wird.
Schauen wir uns kurz die Schritte an -
- Fügen Sie den Auslöser Ihrer Wahl hinzu und konfigurieren Sie ihn
- Fügen Sie die Aktion Text extrahieren hinzu und aktivieren Sie sie.
- Laden Sie die Beispiel-PDF-Rechnung in den Quellordner des Auslösers hoch - Beispieldatei herunterladen{target=_blank}
- Fügen Sie den Speicherort hinzu, in dem Sie die Datei speichern möchten, und geben Sie im Parameter für den Namen der Ausgabedatei den folgenden regulären Ausdruck ein -
${file.pages[0].PageText.match('INVOICE #(.*)')[1].trim()}.pdf
Der oben beschriebene Arbeitsablauf extrahiert den Text aus der PDF-Datei, schneidet den gewünschten Teil zu und benennt die Datei um, bevor sie gespeichert wird.
Um Zugang zu Workflows zu erhalten, benötigen Sie ein PDF4me-Abonnement. Sie können sich sogar einen Tagespass besorgen und Workflows ausprobieren, um zu sehen, wie sie Ihnen helfen können, Ihre Dokumentenaufträge zu automatisieren.