En Aunoa, la innovación es parte de nuestro ADN. Hoy estamos emocionados de compartir con vosotros tres avances tecnológicos que marcan un antes y después en cómo gestionamos y aprovechamos la información: conversión avanzada de documentos, indexación multimodal y búsqueda semántica. Estas novedades son el resultado de meses de investigación, desarrollo y pruebas, y reflejan nuestro compromiso con la excelencia técnica y la mejora continua.
Conversión avanzada de documentos
Uno de los mayores desafíos al trabajar con documentos para IA es preservar su estructura semántica al convertirlos en texto plano. A menudo, convertir un PDF o un documento de Word en texto implicaba perder información valiosa como títulos, tablas, listas o imágenes.
La solución: Hemos integrado la importación de documentos en formato Markdown, un estándar de texto plano que conserva la estructura semántica. Esto significa que:
- Las tablas siguen siendo tablas.
- Las listas mantienen su jerarquía.
- Las imágenes y otros elementos no textuales se preservan.
Además, esta funcionalidad está disponible tanto para documentos individuales como para integraciones con Google Drive y Microsoft OneDrive.
¿Por qué es importante?
- Mejor calidad en la indexación y recuperación de información.
- Mayor eficiencia en procesos automatizados.
- Compatibilidad con documentos complejos sin perder su esencia.
2. Indexación multimodal: Texto e imágenes, mejorando la representación de la información
No solo nos quedamos en el texto. Ahora, también indexamos imágenes dentro de los documentos, gracias a modelos de IA multimodal como Jina CLIP v2, un modelo state-of-the-art que trabaja con texto e imágenes simultáneamente.
¿Cómo funciona?
- Utilizamos dos encoders: uno para texto y otro para imágenes.
- Los vectores generados alinean representaciones semánticas similares, incluso entre modalidades distintas.
- Hemos implementado Matryoshka Representation Learning, que permite comprimir vectores sin perder información relevante.
Beneficios:
- Búsquedas más precisas, incluso cuando se mezclan texto e imágenes.
- Retrocompatibilidad con sistemas anteriores.
- Preparación para futuros desarrollos en IA multimodal.
3. Búsqueda semántica multimodal: Potenciando casos de uso reales
La pregunta clave era: ¿Cómo hacer que estas capacidades sean útiles en el mundo real? La respuesta llegó de la mano de nuestro equipo de Marketing y Ventas, con un caso de uso concreto: búsqueda de productos basada en imágenes y descripciones.
¿Qué logramos con esto?
- Experiencias de búsqueda más intuitivas para los usuarios.
- Mayor precisión al combinar texto e imágenes.
- Aplicaciones en e-commerce, documentación técnica y más.
Próximos pasos: ¡Esto no para aquí!
En Aunoa, seguimos trabajando para ofrecer las soluciones más avanzadas en IA y gestión de datos. El futuro ya está aquí, y lo estamos construyendo juntos.