MediaNext TechSomosHiberus

Caso de éxito: Havas integra IA y ciencia de datos en motores de búsqueda

6 Mins de lectura

Hoy compartimos un caso de éxito de la prueba de concepto más reciente que hemos realizado en Hiberus Data & Analytics para Havas Media Group, en la que se ha desarrollado una plataforma privada de intercambio de documentos, con el uso de Azure Cognitive Search. 

Azure Cognitive Search es un servicio de búsqueda en la nube con una capa de inteligencia artificial integrada que enriquece todos los tipos de información, identificando y explorando el contenido relevante a gran escala.  

A través de esta capa inteligente, los indexadores son capaces de extraer, procesar, analizar y ordenar información encontrada en distintos archivos de oficina: PDF, Documentos Word, Presentaciones Power Point y Tablas Excel. Así como imágenes dentro de archivos, JSON, entre otros. 

Después de enriquecer los documentos, extrayendo y procesando datos no estructurados, se puede desarrollar un motor de búsqueda capaz de acceder a la información extraída de forma semiestructurada, en segundos o microsegundos. 

IA para enriquecer toda la información 

Es posible implementar modelos de visión artificial para, por ejemplo, generar una descripción a partir de una imagen, generar etiquetas, extraer texto en fotos o identificar celebridades y lugares de referencia. 

De la misma manera, con procesamiento del lenguaje natural se puede realizar extracción de frases clave, reconocimiento de entidades (Desde personas, fechas y organizaciones hasta direcciones URL y números de teléfono), detección de datos sensibles e identificadores personales, entre otros. 

 

Imagen 1. Diagrama de enriquecimiento de la información con Azure Cognitive Search

Imagen 1. Diagrama de enriquecimiento de la información con Azure Cognitive Search

 

Así como también se pueden crear e implementar nuevos modelos de IA personalizados para el caso concreto de un negocio. Por ejemplo, es posible entrenar un modelo de reconocimiento de entidades para detectar marcas u organizaciones especificas relevantes para vuestro sector.  

Con este modelo personalizado en el indexador se podría automáticamente: 

  • Categorizar tickets en Atención al cliente. 
  • Obtener información específica a partir de comentarios de clientes. 
  • Combinar con visión artificial para reconocer entidades en datos no estructurados como imágenes, gráficas, logos u otros. 
  • Y especialmente, potenciar el sistema de búsqueda para que sea más relevante y preciso para el caso concreto de un negocio, incluso cuando un término haya sido referenciado de manera indirecta.  

Azure Cognitive Search ha demostrado ser una herramienta potente, versátil y conveniente para empresas con la intención de sacar provecho a todos los tipos de datos que puedan tener en su negocio y ecosistema. 

 

Imagen 2. Identificadores personales (Información de carácter personal) extraídos de un documento PDF que consta sólo de imágenes.

Búsquedas potenciadas por IA 

Gracias a esta capa cognitiva, las búsquedas en la plataforma de HAVAS Media Group acceden a información proveniente de información no estructurada, de forma sencilla para el usuario.  

Si buscamos por la frase “Fly to someone not just somewhere” en la plataforma, obtendremos un resultado que no muestra ese texto en el título, metadatos o categorías de este. 

Sin embargo, al entrar en el archivo, se encuentra una imagen con exactamente ese texto, como se puede ver a continuación. 

 

Imagen 3. A la izquierda el texto extraído con OCR, mientras que a la derecha se muestra el documento original de imágenes

 

El texto encontrado con OCR es también detectado con bounding boxes (Cuadros delimitadores) con coordenadas dentro del documento representando la ubicación cada línea o párrafos de texto detectados.

Sobre el texto detectado se puede realizar reconocimiento de entidades, traducción, detección y anonimización de identificadores personales.

 

La información extraída puede provenir de imágenes en documentos como lo puede ser un PDF con páginas escaneadas, entre otros, y cuyo contexto puede estar originalmente oculto. 

Motor de búsqueda con algoritmo de similitud 

El procesamiento de una consulta de búsqueda de texto empieza analizando el texto de consulta para extraer los términos de búsqueda. Un conjunto de resultados se ordena mediante una puntuación de importancia asignada a cada documento de coincidencia.  

La plataforma creada para HAVAS Group Media permite buscar por metadatos, categorías o incluso información que se encuentra en imágenes de documentos. 

Si buscamos, por ejemplo, por múltiples términos “Havas” y “Media”, el motor de búsqueda priorizara aquellos resultados con mayor relevancia de estos términos en el documento. Esto se logra con las fases:

  1. Consulta de análisis. Reestructura las subconsultas en un árbol de consulta (una estructura interna que representa la consulta) que pasa al motor de búsqueda.
  2. Análisis léxico. Se realiza un análisis lingüístico, que transforma los términos de consulta basándose en reglas específicas para un idioma determinado.
  3. Recuperación de documentos. Búsqueda de documentos con términos coincidentes en el índice.
  4. Cálculo de puntuaciones de relevancia. La puntuación será mayor en aquellos documentos que responden mejor a la pregunta del usuario según lo expresado por la consulta de búsqueda.

Los analizadores de consulta separan los términos de consulta de los operadores de consulta y crean una estructura de consulta (un árbol de consulta) que se envía al motor de búsqueda.

Con analizadores de texto se realiza un análisis léxico sobre los términos de consulta. Este proceso puede implicar la transformación, eliminación o expansión de los términos de consulta. Se elimina palabras vacías (palabras irrelevantes, como «el» o «y»), se tokeniza las palabras y se puede interpretar el contexto del término.

En nuestro ejemplo de búsqueda por múltiples términos “Havas” y “Media”, se tomará también en cuenta pesos asignados a campos en el índice. Por ejemplo, el título tendrá más peso al tener términos coincidentes que cuando se encuentren en el contenido del documento, la descripción u otros campos del índice.

 

Imagen 4. Diagrama representativo de la puntuación de similitud y relevancia dada a los documentos al realizarse una búsqueda

 

Algoritmo de similitud para resultados de búsqueda 

El sistema de búsqueda implementado para HAVAS Media Group retorna múltiples columnas relevantes para su caso ad-hoc. Una de esas columnas es el “score”.  

Éste “score” es un indicador de la relevancia de un elemento en el contexto de una consulta. Este sistema de puntuación usa el algoritmo BM25, el cual es de tipo TF-IDF. Usa la frecuencia del término (TF) y la frecuencia inversa del documento (IDF) como variables para calcular las puntuaciones de relevancia de cada par de documento-consulta, para luego clasificar los resultados. BM25 es una mejora frente a otros algoritmos de similitud.   

Entre las pruebas realizadas para HAVAS Media Group, se probó la personalización de la salida del índicedemostrando la capacidad de personalización de la herramienta al mostrar resultados de búsqueda.  

Es capaz de establecer y entender la relación entre palabras bajo el mismo contexto e intención durante una búsqueda: «Playas de verano» referencia a todas las extensiones y subrepresentaciones que pueda tener. El buscador encontrará todos los registros en los que exista referencia de una playa en múltiples idiomas, ciudades de la costa, temporada de verano, entre otros. 

Conclusión 

Azure Cognitive Search ha demostrado ser una herramienta versátil y conveniente para empresas enterprise con la intención de sacar provecho a todos los tipos de datos que puedan tener en su negocio y ecosistema. En cuanto a disponibilidad, Azure nos proporciona SLA (Acuerdo de nivel de servicio) con un nivel de disponibilidad del 99,9% (si se cumplen algunos requisitos determinados). 

La versatilidad de esta herramienta se manifiesta de múltiples maneras. Un día puede necesitar una búsqueda de texto simple, pero mañana puede buscar en documentos. O incluso, usar distintas bases de datos diferentes en un solo lugar.  

Si tu organización necesita un servicio de búsqueda robusto, que pueda manejar grandes cantidades de datos, tenga grandes posibilidades de configuración e integre IA para sacar enriquecer la información en imágenes, procesamiento de texto o metadatos, Azure Cognitive Search es una buena opción para ello. 

Si quieres más información, Hiberus cuenta con una unidad especializada en servicios de Data & Analytics formada por un equipo de profesionales con amplio expertise en tecnología, análisis de datos e innovación. Desde esta unidad ofrecemos soluciones integrales de consultoría estadística y análisis de datos con especialización por áreas de conocimiento, donde se acompaña a nuestros clientes en cada proyecto integrándonos como parte de su equipo.

 

1 posts

Sobre el autor
Analista y científica de datos en Hiberus. Apasionada por la tecnología, visión artificial e innovación. Además de esto, le gustan los animales, las sesiones de brainstorming y conocer gente nueva.
Artículos

ANALIZANDO EL ESTADO PRESENTE Y LA EVOLUCIÓN DE LOS DATOS

Hiberus cuenta entre sus tecnologías diferenciales con una unidad especializada en servicios de Data & Analytics.

Trabajamos desde el análisis descriptivo hasta el análisis prescriptivo pasando por el predictivo en función de la madurez analítica de cada compañía.

¿Te ayudamos?

Artículos relacionados
DigitalMediaSomosHiberus

Caso de Éxito SEO: un millón de clics en Discover por San Fermín en DIARIO DE NAVARRA

5 Mins de lectura
Diario de Navarra es un medio de comunicación regional perteneciente al Grupo La Información, decano en la prensa de Navarra y el…
Banca y SegurosNext TechRetailSector Público

Cómo elegir el asistente virtual que mejor se adapte a tus necesidades

4 Mins de lectura
Antes de diseñar y construir tu asistente virtual es fundamental conocer el nivel de digitalización de tus clientes. ¿Qué canales de comunicación…
Banca y SegurosNext TechRetailSector Público

Cómo potenciar la relación con cliente mediante el envío de SMS con Twilio

3 Mins de lectura
Antes de los SMS de Twilio, los Short Messaging Service tenían 30 años de historia. Nacieron en Reino Unido en 1992 cuando…

Deja una respuesta

Tu dirección de correo electrónico no será publicada.