La calidad de tu catálogo determina cuánto te encuentran (SEO + feeds) y cuánto te compran (conversión). En catálogos con miles de SKUs, limpiar a mano es inviable. La IA, bien aplicada, hace en horas lo que un equipo tarda meses. Esta es la metodología que aplicamos en TryCatch.
Qué entendemos por "enriquecimiento de datos"
Es el proceso de tomar un catálogo en su estado actual (con campos vacíos, inconsistentes, mal categorizados o duplicados) y dejarlo listo para vender, indexar y exportar a feeds. Incluye:
- Completar atributos faltantes (material, color, talla, peso, GTIN, categoría).
- Normalizar nombres y descripciones (mayúsculas, abreviaciones, tildes).
- Detectar duplicados y agrupar variantes.
- Categorizar contra una taxonomía propia o estándar (Google Product Categories).
- Generar tags semánticos para búsqueda interna y recomendación.
- Validar contra reglas de negocio (precio coherente, stock razonable).
Por qué los LLMs cambian el juego
Antes el enriquecimiento se hacía con reglas regex + diccionarios + equipos de operadores. Los LLMs (GPT-5, Claude Opus, Gemini) permiten razonar sobre el contenido como lo haría una persona: detectan que una camisa es de lino aunque no lo diga el título, normalizan tallas (Medium -> M) y deducen categorías completas a partir de imagen y descripción. Y lo hacen en milisegundos por SKU.
Arquitectura típica que aplicamos
- Extracción: leer el catálogo desde la base (Shopify, PrestaShop, SAP, Odoo, CSV).
- Diagnóstico: detectar qué % de cada campo está vacío, inconsistente o sospechoso.
- Pipeline de enriquecimiento: para cada SKU, llamar al LLM con contexto (título, descripción, imagen via vision model) + esquema de atributos + ejemplos.
- Validación: reglas determinísticas + validación cruzada (otro modelo o regla).
- Persistencia: guardar el resultado como propuesta (no sobreescribir directo) en una tabla staging.
- Revisión humana: panel donde el equipo aprueba o corrige por lotes.
- Aplicación: una vez aprobado, escribir en Shopify/PrestaShop/SAP via API.
- Reporting: % completado, ahorro estimado, productos pendientes de revisar.
Costes reales
Con GPT-5 nano o Claude Haiku 4.5, enriquecer un catálogo de 10.000 SKUs cuesta entre 30 y 150 € en tokens según complejidad. Para descripciones largas o uso de visión sobre imágenes, escala a 150-500 €. El coste por SKU enriquecido se mide en céntimos.
Ejemplo concreto: marca de moda
Cliente con 8.000 SKUs en PrestaShop, 40% sin material, 25% mal categorizados, descripciones inconsistentes. Pipeline en 3 semanas: extracción → enriquecimiento → revisión → aplicación. Resultado: catálogo en verde para Google Shopping en 4 semanas, +18% impresiones en Search Console al mes siguiente.
Errores a evitar
- Sobreescribir el catálogo sin staging — sin marcha atrás si el modelo se equivoca.
- No validar contra reglas de negocio (precio, GTIN, categorías permitidas).
- Usar un solo modelo grande para todo: divide el problema en pasos y usa modelos pequeños donde alcance.
- Olvidarse de la imagen: los vision models extraen color, material y forma con precisión sorprendente.
- No medir: cada pipeline necesita su golden set para validar calidad.
Un catálogo limpio vende. Un catálogo sucio gasta lo que invertís en marketing.



