Quien haya buscado licitaciones en la Plataforma de Contratación del Sector Público sabe que su motor de búsqueda funciona por palabras exactas. Si escribes "mantenimiento de instalaciones" y el pliego dice "conservación de infraestructuras", no aparece. Si buscas "consultoría tecnológica" y el contrato se titula "servicios de transformación digital", tampoco. Esta limitación no es un defecto de usabilidad menor: es la razón por la que muchas empresas pierden licitaciones relevantes que nunca llegan a ver.

La búsqueda semántica basada en embeddings resuelve exactamente ese problema. En lugar de comparar palabras letra a letra, convierte el texto en representaciones matemáticas que capturan el significado y la relación conceptual entre términos. El resultado es un sistema capaz de encontrar licitaciones similares aunque no compartan ninguna palabra con la consulta inicial. Esta tecnología, combinada con las bases de datos vectoriales y los modelos de lenguaje modernos, está transformando cómo los licitadores identifican oportunidades y cómo se procesa el conocimiento acumulado en miles de pliegos.

Qué son los embeddings y cómo funcionan sobre texto de pliegos

Un embedding es una representación numérica de un texto en un espacio de alta dimensión. Los modelos de lenguaje modernos convierten cada fragmento de texto, ya sea una frase, un párrafo o un documento completo, en un vector de cientos o miles de números. Lo que hace útil esa conversión es que textos con significados parecidos producen vectores matemáticamente próximos, mientras que textos conceptualmente distintos producen vectores alejados entre sí.

Aplicado a los pliegos de contratación, esto significa que un modelo de embeddings entrenado con suficiente contexto puede aprender que "servicio de limpieza de edificios" y "mantenimiento de higiene en centros administrativos" son conceptualmente cercanos, aunque no compartan ninguna palabra relevante. O que "asistencia técnica en sistemas de información" y "soporte informático para administración pública" describen prestaciones equivalentes desde perspectivas léxicas distintas. El vector que representa cada uno de esos textos estará en zonas próximas del espacio matemático, lo que permite recuperarlos como resultados similares con independencia del vocabulario exacto usado.

El papel de las bases de datos vectoriales

Para que la búsqueda semántica sea útil en producción, los vectores generados para cada licitación deben almacenarse de forma que permita recuperaciones rápidas por similitud. Aquí entran las bases de datos vectoriales, sistemas especializados en almacenar y comparar vectores de alta dimensión de forma eficiente.

Cuando un usuario introduce una consulta, el sistema genera su embedding en tiempo real y lo compara contra los vectores almacenados para todas las licitaciones disponibles. La base de datos devuelve las licitaciones cuyos vectores están más próximos al de la consulta, medido habitualmente mediante similitud del coseno, una métrica que mide el ángulo entre dos vectores con independencia de su magnitud. Este proceso, que en bases de datos relacionales requeriría comparar texto contra texto en miles de registros, se ejecuta en milisegundos sobre millones de documentos cuando se aplica sobre índices vectoriales optimizados.

Más allá del CPV: por qué la búsqueda semántica mejora la clasificación de contratos

El Vocabulario Común de Contratos (CPV) de la Unión Europea es el estándar oficial para clasificar los contratos públicos por tipo de objeto. Con más de 9.000 códigos organizados en una taxonomía jerárquica, el CPV es una herramienta valiosa para filtrar licitaciones por categoría, pero tiene limitaciones estructurales que la búsqueda semántica puede complementar. El artículo sobre códigos CPV y búsqueda de licitaciones explica en detalle cómo funciona esa taxonomía y cómo elegir los códigos más adecuados.

La primera limitación es la asignación manual. El código CPV de un contrato lo elige el órgano de contratación, y esa elección no siempre es homogénea. Un contrato de desarrollo de software puede clasificarse bajo CPV 72000000 (Servicios de tecnología de la información), 72200000 (Programación y consultoría en software) o incluso 48000000 (Paquetes de software), dependiendo del criterio del técnico que redacta el pliego. Una empresa que filtra solo por el primer código perderá los contratos con los otros dos, aunque el objeto sea idéntico. La búsqueda semántica elimina esa dependencia: si el texto del pliego describe una prestación similar, el sistema la recupera con independencia del CPV asignado.

La segunda limitación es la granularidad. Algunos sectores económicos no tienen códigos CPV específicos que capturen con precisión su actividad, lo que obliga a usar códigos demasiado amplios que generan mucho ruido, o códigos demasiado específicos que dejan fuera variantes relevantes. Los embeddings operan sobre el texto completo del objeto del contrato, no sobre la taxonomía, lo que permite una recuperación más precisa en sectores con clasificación CPV imprecisa.

Similitud entre pliegos: usos prácticos para licitadores

La capacidad de encontrar licitaciones similares entre sí no solo es útil para la búsqueda inicial. Tiene aplicaciones prácticas concretas a lo largo de todo el proceso de preparación de una oferta.

Un licitador que ha ganado un contrato anterior puede usar la similitud semántica para identificar contratos análogos en otros organismos, anticipando que los requisitos de solvencia, los criterios de adjudicación y las prescripciones técnicas serán parecidos. Un bid manager que analiza el pliego de una licitación puede recuperar automáticamente los contratos más similares adjudicados en los últimos años para estudiar quién los ganó, a qué precio y con qué propuesta técnica. Un departamento comercial que quiere expandirse a un nuevo mercado puede explorar qué licitaciones activas se parecen más a los contratos que ya ejecutan, sin necesidad de conocer de antemano los CPVs aplicables en ese sector.

RAG y recuperación semántica sobre el contenido de los pliegos

La búsqueda semántica aplicada a títulos y objetos de contratos es solo la capa más visible de lo que la tecnología de embeddings permite. En su aplicación más potente, los sistemas de generación aumentada por recuperación (RAG) indexan no solo los metadatos de la licitación sino el contenido completo de los documentos: pliegos de prescripciones técnicas, pliegos de cláusulas administrativas, criterios de adjudicación, requisitos de solvencia y condiciones especiales de ejecución. El artículo sobre RAG frente a ChatGPT en contratación pública explica las diferencias entre ambos enfoques y por qué el RAG es más adecuado para responder preguntas sobre documentos específicos.

Cuando un usuario hace una pregunta sobre una licitación concreta, como "¿qué experiencia previa exige el pliego?" o "¿cuáles son los criterios de valoración de la oferta técnica?", el sistema no lee el documento completo en cada consulta. En cambio, genera el embedding de la pregunta, lo compara contra los fragmentos del pliego previamente indexados como vectores, recupera los más relevantes y los proporciona al modelo de lenguaje como contexto para generar la respuesta. Este proceso es más rápido, más preciso y más económico que leer documentos completos, y permite responder preguntas específicas sobre pliegos de cientos de páginas en segundos.

Arquitectura real: Elasticsearch, Qdrant y modelos privados

En la práctica, los sistemas de búsqueda semántica en producción combinan varios componentes. Elasticsearch, el motor de búsqueda más extendido en aplicaciones empresariales, incorpora soporte nativo para vectores densos mediante su tipo dense_vector, que permite almacenar embeddings y ejecutar búsquedas de similitud mediante coseno directamente en sus índices. Esto lo hace adecuado para la búsqueda semántica sobre grandes volúmenes de licitaciones donde los metadatos estructurados (importe, fechas, CPV, organismo) deben combinarse con la similitud semántica del texto.

Para las funcionalidades de RAG sobre documentos de clientes, donde entran en juego consideraciones de privacidad y protección de datos, las bases de datos vectoriales especializadas como Qdrant ofrecen ventajas adicionales: almacenan exclusivamente los vectores, nunca el texto original, lo que garantiza que información confidencial no persiste en el sistema de almacenamiento. En la arquitectura de Tendios, el motor de búsqueda semántica combina Elasticsearch para la recuperación de licitaciones públicas con Qdrant como base de datos vectorial para las funcionalidades RAG, procesando los embeddings en infraestructura GPU privada en Europa. Esta separación entre datos públicos y datos privados es una decisión técnica deliberada con implicaciones directas para el cumplimiento del Reglamento General de Protección de Datos (RGPD): los datos de los clientes se procesan en memoria, en infraestructura europea, sin enviarse a APIs comerciales externas.

Límites y consideraciones prácticas de los embeddings en contratación pública

La búsqueda semántica tiene limitaciones reales que conviene conocer. La calidad de los resultados depende directamente de la calidad del modelo de embeddings utilizado: un modelo de propósito general entrenado sobre texto genérico producirá vectores menos precisos para el dominio específico de la contratación pública que un modelo ajustado con textos de pliegos, resoluciones de tribunales y normativa contractual.

Otra limitación importante: la recuperación por similitud semántica no equivale a relevancia comercial. Dos contratos pueden ser semánticamente similares porque describen prestaciones parecidas pero ser completamente irrelevantes para una empresa concreta por razones de geografía, importe, requisitos de solvencia o capacidad técnica. La búsqueda semántica es una herramienta de descubrimiento, no un sustituto del análisis de viabilidad. Lo que sí permite es ampliar el espectro de oportunidades revisadas antes de aplicar el filtro de relevancia, reduciendo el riesgo de que contratos interesantes queden fuera del radar por un vocabulario distinto al esperado.

La combinación óptima en la práctica es un sistema híbrido: búsqueda semántica para la recuperación amplia por significado, filtros estructurados (CPV, importe, procedimiento, organismo) para la reducción de resultados, y análisis asistido por IA para la evaluación rápida de los contratos recuperados. Este es el modelo que los sistemas más avanzados de gestión de licitaciones implementan, y explica por qué la búsqueda semántica no reemplaza a los filtros tradicionales sino que los complementa.

El impacto en la estrategia de búsqueda de licitaciones

Para un equipo de licitación, entender cómo funciona la búsqueda semántica cambia la forma en que se configuran las alertas y se gestionan las búsquedas habituales. En un sistema con búsqueda por palabras exactas, la estrategia óptima es identificar todos los términos posibles con los que la administración puede denominar la prestación que ofrece la empresa y configurar una alerta por cada uno. Esa estrategia produce muchas alertas redundantes y aun así puede dejar escapar contratos.

En un sistema con búsqueda semántica, una descripción clara y precisa de la actividad de la empresa en lenguaje natural es suficiente para que el motor recupere contratos relevantes con independencia del vocabulario del pliego. Tendios aplica búsqueda semántica en su buscador de licitaciones, de modo que una consulta como "servicios de inspección técnica de instalaciones" recupera también contratos descritos como "revisión periódica de equipamiento", "auditoría de mantenimiento preventivo" o "asistencia técnica en infraestructuras", sin necesidad de configurar alertas separadas para cada variante. Esta capacidad es especialmente valiosa en sectores con vocabulario técnico heterogéneo, como el sanitario, el tecnológico o el medioambiental. El artículo sobre clasificación de licitaciones con IA profundiza en cómo la IA combina semántica y taxonomía CPV para mejorar la precisión de los resultados.

Preguntas frecuentes sobre búsqueda semántica y embeddings en licitaciones

¿Qué diferencia hay entre búsqueda por palabras clave y búsqueda semántica en licitaciones?

La búsqueda por palabras clave compara texto literalmente: si la consulta no contiene las mismas palabras que el título o el objeto del contrato, no hay coincidencia. La búsqueda semántica convierte tanto la consulta como los documentos en vectores matemáticos y mide la proximidad conceptual entre ellos, de modo que términos con significados equivalentes producen resultados similares aunque las palabras sean distintas. En la práctica, la búsqueda semántica recupera contratos relevantes que la búsqueda léxica dejaría fuera.

¿El CPV sigue siendo útil con búsqueda semántica?

Sí, pero su función cambia. El CPV sigue siendo una herramienta de filtrado estructurado útil para acotar resultados por categoría oficial de contrato. La búsqueda semántica complementa al CPV en los casos en que la clasificación es imprecisa, inconsistente entre organismos, o cuando la empresa opera en un sector sin código CPV específico que capture bien su actividad. El uso combinado de ambos mecanismos produce mejores resultados que cualquiera de ellos por separado.

¿Los embeddings pueden encontrar licitaciones similares a contratos que ya he ejecutado?

Sí. Si se indexan los contratos ejecutados anteriormente junto con las licitaciones activas, un sistema de búsqueda semántica puede calcular la similitud entre los primeros y los segundos y recuperar las oportunidades más parecidas a la experiencia previa de la empresa. Esta funcionalidad es especialmente útil para construir un pipeline de oportunidades orientado a la historia de adjudicaciones de la empresa.

¿Qué es Qdrant y por qué se usa en contratación pública?

Qdrant es una base de datos vectorial de código abierto diseñada para almacenar y consultar embeddings de forma eficiente. A diferencia de las bases de datos relacionales o de documentos, Qdrant almacena únicamente los vectores numéricos, no el texto original, lo que tiene implicaciones positivas para la privacidad de los datos. En el contexto de la contratación pública, se usa como componente del sistema RAG que permite hacer preguntas sobre el contenido de pliegos sin enviar los documentos completos a modelos externos.

Conclusiones sobre búsqueda semántica y embeddings en contratación pública

La búsqueda semántica basada en embeddings representa un cambio cualitativo en la forma en que los licitadores pueden identificar oportunidades y analizar pliegos. No se trata de una mejora incremental sobre la búsqueda por palabras clave, sino de un mecanismo diferente que opera sobre significado, no sobre forma.

Para los equipos de licitación, las implicaciones son prácticas: menos oportunidades perdidas por diferencias de vocabulario, mejores búsquedas con menos configuración, y análisis de pliegos que se completan en segundos en lugar de horas. Para quienes diseñan plataformas de contratación pública, la integración de vectores y RAG en el flujo de trabajo de los licitadores no es ya una tendencia emergente, sino una capacidad consolidada cuya ausencia se convierte en desventaja competitiva real.