El boletín informativo de PaperOffice Insider
El boletín informativo de PaperOffice Insider
Queremos ser amigos

Ofertas de descuento máximas

Noticias exclusivas para insiders

Actualización gratuita de bonificación

Ofertas de descuento máximas

Noticias exclusivas para insiders

Actualización gratuita de bonificación

Amistad-Confianza-Palabra de honor
Nunca compartiremos su dirección de correo electrónico con otros y cada correo electrónico incluirá un enlace para darse de baja con un solo clic.

Realice el procesamiento inteligente de documentos con precisión


A través del procesamiento automatizado y la lectura de datos con inteligencia artificial (IA), un sistema de administración de documentos como PaperOffice DMS puede ayudarlo a reducir los costos de su negocio hasta en un 92 % y aumentar la eficiencia operativa.

Consejo profesional

Recopilación de datos automatizada con expresiones regulares: cómo procesar de manera eficiente grandes cantidades de datos mediante expresiones regulares.


La clave para la recopilación y extracción de datos automatizadas.

En el artículo actual, le mostramos cómo puede usar expresiones regulares para disfrutar de los beneficios del procesamiento automatizado de documentos. Esto se aplica en particular a los documentos de empresas de cualquier industria.

Le mostramos ejemplos exactos de expresiones regulares y le explicamos paso a paso qué significan y cómo puede usarlas.

De esta manera, puede aumentar su eficiencia operativa, reducir el error humano a través de una mayor precisión, reducir sus costos actuales, mantener la integridad de los datos y mejorar la seguridad de los datos.

El artículo actual amplía la primera parte sobre el procesamiento inteligente de documentos, aquí lo lleva directamente al artículo.

Extraer elementos de datos específicos de los documentos puede ser una tarea extremadamente costosa y que requiere mucho tiempo. Con frecuencia, los escaneos de documentos se envían a grandes empresas de subcontratación de entrada de datos, donde los datos se ingresan a mano.

Sin embargo, existen varias desventajas en este enfoque, como se indica a continuación:

  • Esto puede poner en peligro la seguridad del documento
  • Se introduce un retraso en los procesos de flujo de trabajo
  • En comparación con la extracción automática, la indexación manual es un proceso lento
  • La indexación manual no escala bien en proyectos grandes
  • La indexación manual puede introducir errores en los datos
  • Si se cambia un documento, todo el proceso comienza de nuevo

Y muchos más.

A pesar de la proliferación del escaneo, una gran proporción de las transacciones comerciales aún se basan en documentos en papel. Se estima que el 85% de las facturas se sigue emitiendo en papel.

Además, ¡hay montañas de papel existente que deben almacenarse en enormes almacenes!

¿Qué es una expresión regular?

Las expresiones regulares, también conocidas como "REGEX", son una poderosa herramienta para buscar y manipular texto. Permiten reconocer y editar patrones complejos en el texto.

Una expresión regular consta de una combinación de letras normales y metacaracteres especiales que tienen funciones especiales.

Las expresiones regulares también se pueden usar para reemplazar o manipular texto. Por ejemplo, se puede usar una expresión regular.

Son una herramienta muy potente para el procesamiento de textos y la automatización de tareas.

¿Cómo pueden las expresiones regulares ayudar a automatizar un negocio?

El aumento de documentos digitales de diferente tipología, diferentes reglas de denominación y sin un sistema de búsqueda suficiente complica el proceso de búsqueda y el proceso de extracción de información documental de cierto contenido, especialmente cuando se trata de documentos no clasificados, la búsqueda se vuelve imprecisa y lleva mucho tiempo.

Las expresiones regulares (regex) proporcionan una forma rápida y eficaz de buscar, extraer y reemplazar datos específicos en los documentos. Las expresiones regulares son esencialmente una cadena de texto especial que se utiliza para describir un patrón de búsqueda.

Así es como se busca y lee el contenido del documento para una cadena de caracteres específica. Las expresiones regulares son una forma de definir patrones en la información usando símbolos especiales.

El método Regex es más adecuado para documentos en los que las posiciones de los valores que se van a leer pueden variar y las plantillas de documentos simples no pueden funcionar.

Puede encontrar una lista de expresiones simples en nuestro ComDesk.

Colección de ejemplos de PaperOffice Regex
Se pueden usar expresiones extensas de la colección de ejemplos de PaperOffice Regex

¿Cómo puedo crear expresiones regulares?

Las expresiones regulares se pueden ensamblar de diferentes maneras, según el tipo de patrón que se busque.

Utilice metacaracteres como ., *, +, ?, ^, $, [] y [a-z] para representar tipos específicos de caracteres o patrones.

Usar partes opcionales: use el signo de interrogación (?) o el asterisco (*) para hacer que partes del patrón sean opcionales.

Usar grupos: usa paréntesis para agrupar partes del patrón y tratarlas como una unidad.

Es importante tener en cuenta que las reglas de expresiones regulares pueden variar según el lenguaje de programación. Por eso es importante leer la documentación de las herramientas utilizadas. El RegEx escrito para PaperOffice debe ser compatible con ECMAScript y PCRE2.

Sugerencia

También hay un video en YouTube sobre el tema "Almacenamiento de documentos automatizado Parte 3/REGEX y variables/Procesamiento de facturas Gestión de documentos ", que explica este proceso de forma fácil y clara:

Contenido

¿Cómo extraigo información de mi documento usando REGEX?

Ejemplos prácticos

En el artículo actual, demostramos cómo puede extraer cualquier dato del documento gracias a las expresiones regulares de elementos múltiples en PaperOffice y almacenarlo automáticamente como una palabra clave para el documento.

Hemos creado un documento de muestra a continuación que tiene una fecha específica. Este documento es una factura. El patrón de fecha en nuestro documento tiene este formato:

Leer la factura de PaperOffice con expresiones regulares
Extrae información automáticamente de las facturas

Día, seguido de un espacio, el mes compuesto por letras, pero siempre la primera letra en mayúscula seguido de una coma, otro espacio y luego el año.

Por ejemplo: 20 de septiembre de 2019 o 5 de marzo de 2022


Para extraer esta fecha podemos usar la siguiente expresión regular (REGEX):

(0[1-9]|[12][0-9]|3[01])\s([A-Z][a-z]{2}),\s(20\d{2})

Dividamos la expresión en grupos individuales. Estos grupos están separados por corchetes simples ().

En el primer grupo buscamos el día en números: (0[1-9]|[12][0-9]|3[01])

(0[1-9]|[12][0-9]|3[01])\s([A-Z][a-z]{2}),\s(20\d{2})

El día debe estar separado por tres declaraciones diferentes.

Como no sabemos qué fecha puede aparecer en el documento, puede ser el primer día (01) o el último día (31) del mes, por lo que tienen que en consecuencia se nombran diferentes opciones.

Estos se separan con el carácter "|".

Ejemplo: (1|2|3) = 1 o 2 o 3.

A continuación se incluye una lista de caracteres permitidos entre corchetes. Múltiples corchetes coinciden con múltiples caracteres. Si una expresión debe describir varios caracteres, estos simplemente se adjuntan uno tras otro. Luego, la entrada se compara con su expresión de izquierda a derecha.

Por supuesto, no es necesario enumerar todos los números. En general, sin embargo, toda la expresión entre paréntesis representa un solo carácter.

  • 0[1-9] Esta cadena significa que el número puede comenzar con un "0" seguido de un número del 1 al 9. Entonces obtenemos cualquier número del 01 al 09.
    La cadena busca un patrón numérico que comience con un cero. Si su documento normalmente tiene una fecha "5 de marzo de 2022", es decir, sin el número "0" delante del número "5", se omite el "0" en la cadena de caracteres.
  • [12][0-9] Esta cadena de caracteres significa que el número puede comenzar con un "1" o un "2", seguido de cualquier número del 0 al 9. El resultado puede ser cualquier sale el número del 10 al 29.
  • 3[01] Esta cadena significa que un número podría comenzar con un "3" seguido de un "0" o un "1". El resultado podría ser 30 o 31.

Ahora buscamos un espacio: \s

(0[1-9]|[12][0-9]|3[01])\s([A-Z][a-z]{2}),\s(20\d{2})

Extraemos el mes

Extraer mes: ([A-Z][a-z]{2})

(0[1-9]|[12][0-9]|3[01])\s([A-Z][a-z]{2}),\s(20\d{2})

  • [A-Z] Esta cadena significa que estamos buscando una letra mayúscula de A-Z. Por ejemplo, la letra "S" de septiembre. Cabe señalar que las letras mayúsculas y minúsculas se tratan por separado.
  • [a-z]{2} Esta cadena significa que estamos buscando dos letras minúsculas de a-z. Eso sería ep de "Sep".

Ahora buscamos la coma y el espacio: ,\s

(0[1-9]|[12][0-9]|3[01])\s([A-Z][a-z]{2}),\s(20\d{2})

Extraemos año:

Extraer año: (20\d{2})

(0[1-9]|[12][0-9]|3[01])\s([A-Z][a-z]{2}),\s(20\d{2})

En el último grupo buscamos el año: (20\d{2})

Empezamos a buscar cualquier año, pero sabemos que será ≥ 2000.

20 Esta cadena significa que estamos buscando cualquier año que comience exactamente con 20.

\d{2} Esta cadena significa que estamos buscando un posible número de dos dígitos, es decir, de "00" a "99".

Por ejemplo, el carácter \d coincide con un dígito entre 0 y 9, mientras que el carácter \d{2} coincide con un número de dos dígitos.

Las variables se leen del documento y se ponen a disposición
Las variables se leen del documento y se ponen a disposición

Si ahora se usa la expresión regular en PaperOffice, el resultado final es la fecha "20 de septiembre de 2019".

De esta manera, se puede leer cualquier fecha de un documento sin que sepamos el valor original. Estos grupos también se pueden usar en cualquier otro lugar y moverse libremente para leer otros formatos de fecha.

Aquí hay otro ejemplo:

Lea la factura 2 de PaperOffice con Regex
Las facturas con diferentes formatos se pueden leer fácilmente

Día, seguido de un espacio, el mes compuesto por letras, pero siempre la primera letra en mayúscula seguido de un punto, otro espacio y luego el año.

Para extraer esta fecha se puede utilizar la expresión regular anterior cambiando la coma por el punto.

Esto se puede declarar con esta expresión: \.

La expresión regular completa es la siguiente:

(0[1-9]|[12][0-9]|3[01])\s([A-Z][a-z]{2})\.\s(20\d{2})

Siempre puede validar su expresión regular creada yendo a la página https://regex101.com para validarlo junto con su texto. Regex101 no solo verificará si su expresión regular es correcta, sino que le explicará la mayor parte de la expresión regular.

Y así puedes usar los diferentes juegos de caracteres para cualquier cosa.

Formato de fecha diferente

Otro ejemplo para facturas con el formato de fecha 20/09/2022

Leer la factura de PaperOffice con expresiones regulares
Las expresiones regulares se pueden expandir a cualquier formato

Para este formato de fecha podemos utilizar el mismo REGEX de día y año anterior y lo combinamos con otro grupo para buscar el mes entre 01 al 12 en número con (0[1-9]|1[0-2])

  • 0[1-9] Esta cadena significa que el número puede comenzar con un "0" seguido de un número del 1 al 9. Entonces obtenemos cualquier número del 01 al 09.
  • 1[0-2]) Esta cadena significa que el número comienza con un “1” seguido de un 0, 1 o un 2. Entonces obtenemos cualquier número del 10 al 12

El separador “/” lo buscamos con \/

La expresión regular completa sería la siguiente:

(0[1-9]|[12][0-9]|3[01])\/(0[1-9]|1[0-2])\/(20\d{2})

Leer número de pedido gracias a REGEX

Como otro ejemplo, nos gustaría leer el número de pedido del documento.

Las variables se leen del documento y se ponen a disposición
Los números de pedido se extraen del documento.

El número de orden en nuestro documento tiene el siguiente formato:

Este siempre comienza con las letras mayúsculas XYB, seguido de un guión, seguido de 8 dígitos, otro guión y finalmente 3 mayúsculas aleatorias.

Ejemplos de números de pedido serían:

XYB-12316723-LSH

XYB-98456723-JRD

Para extraer este número de orden podemos usar la siguiente expresión regular:

XYB-\d{8}-[A-Z]{3}

Desglosemos la expresión una por una.

Primero buscamos exactamente las 3 primeras letras mayúsculas con el símbolo del guión: XYB-

XYB\d{8}-[A-Z]{3}

Luego buscamos 8 dígitos seguidos de otro guión: \d{8}-

XYB-\d{8}-[A-Z]{3}

El carácter \d, como se describió anteriormente, coincide con un dígito entre 0 y 9, mientras que el carácter \d{8} coincide con un número de ocho dígitos.

Y finalmente estamos buscando 3 letras mayúsculas: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Así es como se vería PaperOffice con los siguientes números de pedido:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

Reconocería los dos primeros XYB-12316723-LSH y XYB-98456723-JRD

Hemos preparado un enlace a Regex101 para este ejemplo, en el que la expresión regular que acabamos de describir se enumera con 4 ejemplos. Puede ver que solo dos de los números de pedido dados cumplen con nuestros requisitos.

Leer números de artículos gracias a REGEX

El número de artículo en nuestro documento tiene el siguiente formato:

Esto siempre comienza con dos letras mayúsculas, seguidas de un guión, seguido de 6 dígitos.

Leer la factura de PaperOffice con expresiones regulares
Se pueden leer varios números de artículo de las facturas

Ejemplos de números de artículos serían:

MS-863398

DS-452829

Para extraer estos números de artículo, podemos usar la siguiente expresión regular:

[A-Z]{2}-\d{6}

PaperOffice puede digitalizar sus documentos e integrarse con sus sistemas para automatizar la extracción de datos de facturas y otra documentación sin tener que escribir y luego mantener toneladas de código.

Contáctenos para hablar sobre sus casos de uso y obtener más información sobre cómo PaperOffice puede ayudarlo a ser aún más competitivo en la era digital.

Comenzar es más fácil de lo que piensa.

¿Todavía le preocupa no lograrlo? Lea casos de estudios de nuestros clientes sobre la integración de PaperOffice en su vida empresarial y convénzase de la simplicidad o simplemente solicite una instalación de prueba.

FAQs

Para finalizar, responderemos algunas preguntas frecuentes sobre el tema. "Uso de expresiones regulares REGEX para la recopilación y extracción de datos automatizada (Parte 2)":

¿Para quién es adecuada una oficina sin papeles?

La respuesta rápida y sencilla a la pregunta es: para todas las empresas. Todos los sectores y tamaños empresariales se benefician de una oficina sin papel, desde pymes y empresas emergentes hasta grandes empresas. Sin embargo, la conversión es particularmente valiosa para las pequeñas y medianas empresas: La reducción del esfuerzo y los costes de procesamiento libera el presupuesto necesario para impulsar más el crecimiento.

¿Puedo usar un proveedor de DMS basado en la nube para mi oficina sin papeles?

No. Otro factor que está en boca de todos desde que entró en vigor el RGPD a más tardar en 2018 es la protección de datos. Las soluciones DMS y el software DMS se utilizan para procesar, administrar y almacenar documentos que a menudo contienen datos personales confidenciales. En caso de violaciones del RGPD, el legislador prevé multas elevadas.

Conclusión

  • Los beneficios justifican el esfuerzo y los costes

    Trabajar digitalmente y traer documentos antiguos a la nueva era será la mejor inversión clave para ahorrar una increíble cantidad de tiempo, dinero y nervios en el futuro.

  • Necesitas a alguien que sepa

    No necesita su propio especialista en TI para aprovechar todas las ventajas de la digitalización.
    Lo que necesita es el socio adecuado a su lado que, gracias a su experiencia, pueda implementar exactamente lo que necesita. Evite el alarmismo y elija posiciones de prueba en lugar de elegantes presentaciones de PowerPoint sin haberlo probado realmente.

  • El hardware normalmente ya está disponible

    La experiencia ha demostrado que casi todas las operaciones, empresas y empresas tienen una gran copiadora que no utiliza su potencial. A estos dispositivos les encantan los escaneos masivos, toleran los clips y pueden ser la base para un comienzo digital sin invertir en un escáner.

  • Más barato de lo esperado con el DMS adecuado

    Evite las trampas de costes con los sistemas DMS/ECM en los que estará sin piedad a merced de los fabricantes. No haga concesiones en lo que respecta a sus propias opciones de administración, como enseñar documentos y realizar ajustes usted mismo. Si necesita ayuda, el fabricante estará encantado de ayudarle, pero siga siendo independiente.

  • La automatización digital es el futuro

    Los procedimientos serán completamente idénticos en el futuro, pero completamente automatizados.
    ¿Factura entrante? El flujo de trabajo se activa y todo sigue su camino definido.
    ¿Buscar en las 1000 carpetas? ¡No hay problema, porque tienes tu propio Google!

PaperOffice resuelve cualquier problema: Garantizado.

Estudio de caso

Digitalización en farmacias - Sanidad digital gracias a la integración de PaperOffice DMS

“PaperOffice es uno de los mejores sistemas de gestión de documentos que conocemos. Gracias a las diferentes opciones de precios, todos en la empresa pueden permitirse la digitalización”.

Henrique Santos
Director gerente de la farmacia en Portugal