Extraer texto de un PDF y reutilizarlo posteriormente mediante flujos de trabajo

By Nishanth Asokan | Automatización

Extraer texto de un PDF y reutilizarlo posteriormente mediante flujos de trabajo

Los documentos digitales están sustituyendo muy rápidamente a los documentos tradicionales en papel. Hoy en día recibimos muchos de ellos en forma de archivos PDF. Los documentos PDF, como contratos, documentos legales o libros digitales, pueden contener cientos o miles de páginas. Automatizamos muchos de estos documentos. Es posible que queramos copiar el texto de un área específica de un PDF. Además, es posible que tengamos que utilizar ese texto en una fase posterior al procesar el PDF. Pues bien, tenemos la solución perfecta para usted. Las acciones de PDF4me Workflows se adaptan a todas estas lógicas de los documentos.

Utilice la acción Extraer texto de Flujos de trabajo de PDF4me para automatizar el proceso de extracción de datos de texto de los documentos PDF. Además, utilice pasos adicionales para reutilizar estos datos parcial o totalmente en una etapa posterior. Veamos un ejemplo de flujo de trabajo en el que extraemos texto de un documento PDF y lo utilizamos posteriormente para renombrar el archivo.

¿Cómo extraer texto de un PDF para reutilizarlo?

Sin ninguna integración adicional, puede configurar un flujo de trabajo para extraer automáticamente el texto de un PDF. Veamos con un ejemplo de Flujo de Trabajo, cómo podemos automatizar la extracción de texto de un PDF y su renombramiento.

Añada un activador para iniciar su flujo de trabajo

Añade un disparador para poner en marcha tu automatización. Actualmente, los flujos de trabajo proporcionan 2 activadores. Dropbox y Google Drive. Por ejemplo, vamos a crear un disparador de Dropbox.

Configure la conexión y elija la carpeta donde se esperan los archivos de entrada.

Activación de Dropbox para la acción de Extraer texto

Añadir la acción de Extraer Texto

Añada la acción Extraer texto y active la acción. La acción extrae el texto completo del PDF. Si desea extraer de cada página por separado, añada una acción Dividir PDF antes de la acción Extraer. Además, añada la acción Extraer texto dentro de Para cada control.

Añadir y activar la acción de Extraer Texto

Añadir una acción de guardar

Los archivos de salida deben ser guardados en la nube. En nuestro caso de uso vamos a configurar una acción Guardar en Dropbox. Puede utilizar una expresión regular para obtener un texto particular de la acción “Extraer Texto”. Puede copiar y pegar la misma expresión regular dada abajo en el parámetro Output File Name y añadir la condición para que coincida con el texto requerido.

${file.pages[0].PageText.match(<condition>).pdf

Guardar la acción de Dropbox con una expresión regular

La expresión pasará el texto que coincida con la condición del PDF y lo pasará al parámetro de nombre de archivo de salida para que los archivos sean renombrados en base al texto leído.

Una muestra para probar

Veamos un flujo de trabajo para extraer texto de un ejemplo de PDF de factura y utilizar una parte específica del texto -número de factura- para renombrar el archivo PDF antes de guardarlo en la nube.

Ejemplo de factura en PDF para extraer el texto

Veamos brevemente los pasos -

  1. Añada y configure el activador de su elección
  2. Añada la acción Extraer texto y habilítela.
  3. Cargue la factura PDF de muestra en la carpeta de origen del activador - Descargar archivo de muestra{target=_blank}
  4. Añade el almacén en el que quieres guardar el archivo y en el parámetro de nombre del archivo de salida, pasa la siguiente expresión regular -

${file.pages[0].PageText.match('INVOICE #(.*)')[1].trim()}.pdf

Ejemplo de flujo de trabajo para extraer texto y renombrar el PDF

El flujo de trabajo anterior extraerá el texto del PDF, recortará la parte necesaria y renombrará el archivo con el mismo antes de guardarlo en el almacén.

Para obtener acceso a Flujos de trabajo se requiere una Suscripción a PDF4me. Incluso puedes obtener un Daypass y probar Workflows para ver cómo puede ayudarte a automatizar tus trabajos documentales.

Related Blog Posts