Estraete il testo dal PDF e riutilizzatelo in seguito con i flussi di lavoro.

By Nishanth Asokan | Automazione

Estraete il testo dal PDF e riutilizzatelo in seguito con i flussi di lavoro.

I documenti digitali stanno sostituendo molto rapidamente i tradizionali documenti cartacei. Oggigiorno ne riceviamo molti in formato PDF. I documenti PDF come contratti, documenti legali o libri digitali possono contenere centinaia o migliaia di pagine. Molti di questi documenti vengono automatizzati. Potremmo voler copiare del testo da un’area specifica di un PDF. Inoltre, potremmo dover utilizzare quel testo in una fase successiva dell’elaborazione del PDF. Abbiamo la soluzione perfetta per voi. Le azioni di PDF4me Workflows rispondono a tutte queste logiche documentali.

Utilizzate l’azione Estrai testo da Flussi di lavoro PDF4me per automatizzare il processo di estrazione dei dati di testo dai documenti PDF. Inoltre, è possibile utilizzare passaggi aggiuntivi per riutilizzare questi dati parzialmente o completamente in una fase successiva. Vediamo un esempio di flusso di lavoro in cui si estrae il testo da un documento PDF e lo si utilizza successivamente per rinominare il file.

Come estrarre il testo da un PDF per riutilizzarlo?

Senza alcuna integrazione aggiuntiva, è possibile configurare un flusso di lavoro per estrarre automaticamente il testo da un PDF. Vediamo con un Workflow di esempio come automatizzare l’estrazione e la ridenominazione del testo PDF.

Aggiungere un trigger per avviare il flusso di lavoro

Aggiungere un trigger per avviare l’automazione. Attualmente, i flussi di lavoro forniscono 2 trigger. Dropbox e Google Drive. Ad esempio, creiamo un trigger Dropbox.

Configurare la connessione e scegliere la cartella in cui sono attesi i file di input.

Attivazione di Dropbox per l'azione Estrai testo

Aggiungere l’azione Estrai testo

Aggiungere l’azione Estrai testo e attivare l’azione. L’azione estrae il testo completo dal PDF. Se si desidera estrarre da ogni pagina separatamente, aggiungere un’azione Split PDF prima dell’azione Extract. Inoltre, aggiungere l’azione Estrai testo all’interno del controllo Per ogni controllo.

Aggiungere e attivare l'azione Estrai testo

Aggiungere un Salva all’azione

I file di output devono essere salvati su cloud storage. Nel nostro caso d’uso, configuriamo un’azione Save to Dropbox. È possibile utilizzare un’espressione regolare per ottenere un testo particolare dall’azione ‘Estrai testo’. È possibile copiare-incollare l’espressione regolare riportata di seguito nel parametro Nome file di output e aggiungere la condizione per far corrispondere il testo richiesto.

${file.pages[0].PageText.match(<condition>).pdf

Salvare un'azione dropbox con un'espressione regolare

L’espressione passerà il testo corrispondente alla condizione dal PDF e lo passerà al parametro del nome del file di output in modo che i file vengano rinominati in base al testo letto.

Un campione da provare

Vediamo un flusso di lavoro per estrarre il testo da un esempio di fattura PDF e utilizzare una parte specifica del testo - il numero della fattura - per rinominare il file PDF prima di salvarlo nel cloud.

Esempio di fattura PDF per l'estrazione del testo

Vediamo brevemente le fasi.

  1. Aggiungere e configurare il trigger desiderato
  2. Aggiungere l’azione Estrai testo e attivarla.
  3. Caricare la fattura PDF di esempio nella cartella di origine del trigger - Scaricare il file di esempio{target=_blank}
  4. Aggiungete la memoria in cui volete salvare il file e, nel parametro del nome del file di output, inserite la seguente espressione regolare

``${file.pages[0].PageText.match(‘INVOICE #(.*)’)[1].trim()}.pdf```

Flusso di lavoro di esempio per l'estrazione di testo e la ridenominazione di PDF

Il flusso di lavoro sopra descritto estrae il testo dal PDF, ritaglia la parte richiesta e rinomina il file con lo stesso nome prima di salvarlo nell’archivio.

Per ottenere l’accesso a Workflows è necessario un PDF4me Subscription. È anche possibile ottenere un Daypass e provare Workflows per vedere come può aiutare ad automatizzare i lavori sui documenti.

Related Blog Posts