Extrair texto de PDF e reutilizá-lo mais tarde utilizando Workflows

By Nishanth Asokan | Automatização

Extrair texto de PDF e reutilizá-lo mais tarde utilizando Workflows

Os documentos digitais estão a substituir muito rapidamente os documentos tradicionais em papel. Hoje em dia, recebemos muitos deles como ficheiros PDF. Documentos PDF como contratos, documentos legais, ou livros digitais podem conter centenas ou milhares de páginas. Automatizamos muitos destes documentos. Talvez queiramos copiar texto de uma área específica de um PDF. Além disso, podemos ter de utilizar esse texto numa fase posterior enquanto processamos o PDF. Bem, temos a solução perfeita para si. As acções de PDF4me Workflows atendem a todas essas lógicas de documentos.

Utilizar a acção Extract Text da PDF4me Workflows para automatizar o processo de extracção de dados de texto de documentos PDF. Além disso, utilizar etapas adicionais para reutilizar estes dados parcial ou completamente numa fase posterior. Vejamos um exemplo de Workflow onde extraímos texto de um documento PDF e o utilizamos mais tarde para renomear o ficheiro.

Como extrair texto de PDF para reutilização?

Sem integração adicional, é possível configurar um Workflow para extrair automaticamente o texto de um PDF. Vejamos com uma amostra de Workflow, como podemos automatizar a extracção e renomeação de texto de PDF.

Adicione um gatilho para iniciar o seu Workflow

Adicione um gatilho para dar o pontapé de saída à sua automatização. Actualmente, os fluxos de trabalho fornecem 2 gatilhos. Dropbox e Google Drive. Por exemplo, vamos criar um gatilho Dropbox.

Configurar a ligação e escolher a pasta onde os ficheiros de entrada são esperados.

Gatilho de caixa de gota para acção de Extracto de texto

Adicionar Extracto de Acção de Texto

Adicionar a acção Extract Text e activar a acção. A acção extrai o texto completo do PDF. Se quiser extrair de cada página separadamente, por favor adicione uma acção Dividir PDF antes da acção Extrair. Além disso, adicione a acção Extrair texto dentro do Para cada controlo.

Adicionar e activar a acção Extract Textos

Adicionar um Save à acção

Os ficheiros de saída precisavam de ser guardados no armazenamento em nuvem. No nosso caso de utilização, vamos configurar uma acção Save to Dropbox. Pode usar uma expressão regular para obter um determinado texto da acção ‘Extrair Texto’. Pode copiar-colar o mesmo abaixo dada expressão regular no parâmetro Nome do ficheiro de saída e adicionar a condição para corresponder ao texto requerido.

${file.pages[0].PageText.match(<condition>).pdf

Salvar acção dropbox com expressão regular

A expressão irá passar o texto correspondente à condição do PDF e passá-lo para o parâmetro do nome do ficheiro de saída de modo a que os ficheiros sejam renomeados com base no texto lido.

Uma amostra para tentar

Vejamos um fluxo de trabalho para extrair texto de uma amostra de PDF de facturação e utilizar uma parte específica do texto - número de factura - para renomear o ficheiro PDF antes de o guardar na nuvem.

Exemplo de PDF de factura para extracção de texto

Vejamos brevemente os passos -

  1. Adicione e configure o gatilho da sua escolha
  2. Adicionar a acção Extract Textos e activá-la.
  3. Carregar a amostra da factura em PDF na pasta de origem do gatilho - Download do ficheiro de amostra
  4. Acrescentar o armazenamento ao qual se pretende guardar o ficheiro e no parâmetro do nome do ficheiro de saída, passar a seguinte expressão regular -

```${file.pages[0].PageText.match(‘INVOICE #(.*)’)[1].trim()}.pdf``````

Exemplo de Workflow para extracção de texto e renomear PDF

O fluxo de trabalho acima referido irá extrair o texto do PDF, aparar a peça necessária e renomear o ficheiro com o mesmo antes de o guardar no armazenamento.

Para ter acesso a Workflows necessitaria de uma PDF4me Subscrição. Pode até obter um Daypass e experimentar Workflows para ver como este pode ajudar a automatizar os seus trabalhos com documentos.

Related Blog Posts