TryCatch Technologies

IA & Ecommerce · 18 de junio de 2026 · 9 min de lectura · Equipo TryCatch

IA para enriquecimiento de datos de producto: cómo limpiar y completar tu catálogo a escala

Catálogos sucios cuestan ventas reales. Te contamos cómo usamos LLMs para enriquecer atributos, normalizar nombres y completar fichas a escala sin romper la operación.

IA para enriquecimiento de datos de producto: cómo limpiar y completar tu catálogo a escala

La calidad de tu catálogo determina cuánto te encuentran (SEO + feeds) y cuánto te compran (conversión). En catálogos con miles de SKUs, limpiar a mano es inviable. La IA, bien aplicada, hace en horas lo que un equipo tarda meses. Esta es la metodología que aplicamos en TryCatch.

Qué entendemos por "enriquecimiento de datos"

Es el proceso de tomar un catálogo en su estado actual (con campos vacíos, inconsistentes, mal categorizados o duplicados) y dejarlo listo para vender, indexar y exportar a feeds. Incluye:

  • Completar atributos faltantes (material, color, talla, peso, GTIN, categoría).
  • Normalizar nombres y descripciones (mayúsculas, abreviaciones, tildes).
  • Detectar duplicados y agrupar variantes.
  • Categorizar contra una taxonomía propia o estándar (Google Product Categories).
  • Generar tags semánticos para búsqueda interna y recomendación.
  • Validar contra reglas de negocio (precio coherente, stock razonable).

Por qué los LLMs cambian el juego

Antes el enriquecimiento se hacía con reglas regex + diccionarios + equipos de operadores. Los LLMs (GPT-5, Claude Opus, Gemini) permiten razonar sobre el contenido como lo haría una persona: detectan que una camisa es de lino aunque no lo diga el título, normalizan tallas (Medium -> M) y deducen categorías completas a partir de imagen y descripción. Y lo hacen en milisegundos por SKU.

Arquitectura típica que aplicamos

  1. Extracción: leer el catálogo desde la base (Shopify, PrestaShop, SAP, Odoo, CSV).
  2. Diagnóstico: detectar qué % de cada campo está vacío, inconsistente o sospechoso.
  3. Pipeline de enriquecimiento: para cada SKU, llamar al LLM con contexto (título, descripción, imagen via vision model) + esquema de atributos + ejemplos.
  4. Validación: reglas determinísticas + validación cruzada (otro modelo o regla).
  5. Persistencia: guardar el resultado como propuesta (no sobreescribir directo) en una tabla staging.
  6. Revisión humana: panel donde el equipo aprueba o corrige por lotes.
  7. Aplicación: una vez aprobado, escribir en Shopify/PrestaShop/SAP via API.
  8. Reporting: % completado, ahorro estimado, productos pendientes de revisar.

Costes reales

Con GPT-5 nano o Claude Haiku 4.5, enriquecer un catálogo de 10.000 SKUs cuesta entre 30 y 150 € en tokens según complejidad. Para descripciones largas o uso de visión sobre imágenes, escala a 150-500 €. El coste por SKU enriquecido se mide en céntimos.

Ejemplo concreto: marca de moda

Cliente con 8.000 SKUs en PrestaShop, 40% sin material, 25% mal categorizados, descripciones inconsistentes. Pipeline en 3 semanas: extracción → enriquecimiento → revisión → aplicación. Resultado: catálogo en verde para Google Shopping en 4 semanas, +18% impresiones en Search Console al mes siguiente.

Errores a evitar

  • Sobreescribir el catálogo sin staging — sin marcha atrás si el modelo se equivoca.
  • No validar contra reglas de negocio (precio, GTIN, categorías permitidas).
  • Usar un solo modelo grande para todo: divide el problema en pasos y usa modelos pequeños donde alcance.
  • Olvidarse de la imagen: los vision models extraen color, material y forma con precisión sorprendente.
  • No medir: cada pipeline necesita su golden set para validar calidad.
Un catálogo limpio vende. Un catálogo sucio gasta lo que invertís en marketing.

Preguntas frecuentes

¿Cuánto tarda un proyecto de enriquecimiento?

Catálogos hasta 10k SKUs: 3-5 semanas (diagnóstico, pipeline, revisión humana, aplicación). Catálogos enterprise: 8-12 semanas según complejidad.

¿Y si el modelo alucina y mete datos falsos?

Por eso usamos staging + validación cruzada + revisión humana antes de tocar el catálogo en producción. Con el pipeline bien hecho, la tasa de error baja del 1%.

¿Funciona en PrestaShop, Shopify y SAP?

Sí. El pipeline lee y escribe via API en las tres plataformas. SAP necesita un middleware adicional para mapear maestros.

¿Tienes un proyecto en mente?

Hablemos. Resolvemos dudas técnicas, hacemos discovery y diseñamos la arquitectura de tu próximo ecommerce o integración ERP.

Artículos relacionados