Cómo medir AEO en 2026: framework de 10 prompts y rúbrica

Puntos Clave

En AEO no hay clics que contar. La métrica madre es el citation rate: con qué frecuencia tu marca aparece citada como fuente en respuestas generadas por ChatGPT, Perplexity, Google AI Overviews, Gemini y otros motores.
Sin un set de prompts test propio, 'trabajar AEO' es trabajar a ciegas. Este artículo entrega un framework reproducible de 10 prompts + rúbrica de scoring + 5 plataformas, listo para aplicar a cualquier marca en menos de tres horas la primera vez.
Aplicamos el framework a nuestra propia agencia (SciData) como caso de baseline: 4 de las 5 plataformas nos posicionan en el top tras cuatro meses de implementación. La quinta no nos lista pero nos describe correctamente cuando se le pregunta directamente — un patrón con explicación técnica y solución concreta.

Si implementaste alguna de las técnicas de Answer Engine Optimization en tu sitio durante el último mes, tenés un problema operativo: no sabés si funcionó.

A diferencia del SEO clásico —donde Search Console te dice cuántas impresiones, clics y posiciones tenés—, AEO transcurre dentro de motores generativos que no exponen sus métricas de la misma manera. ChatGPT no te muestra cuántas veces tu marca apareció citada. Perplexity tampoco. Google AI Overviews lo está empezando a mostrar parcialmente, pero la cobertura es desigual.

La forma honesta de medir AEO en 2026 es la que vamos a desarmar acá: armar un set propio de prompts test, correrlos de forma sistemática en las plataformas relevantes, y aplicar una rúbrica de scoring reproducible. Es trabajo manual, pero es manejable, replicable y, sobre todo, te dice si lo que estás haciendo funciona o no.

La métrica madre: citation rate

El indicador central de AEO es el citation rate, definido como el porcentaje de prompts representativos de tu categoría en los que tu marca aparece citada como fuente en la respuesta generada por un motor de IA.

Es una métrica simple en concepto y exigente en ejecución. Simple porque solo cuenta apariciones en un set finito de prompts. Exigente porque obliga a definir bien tres cosas: qué prompts son representativos de tu categoría, qué cuenta como cita válida, y en qué plataformas medir.

A esta métrica madre se le pueden sumar dos secundarias útiles:

Posición de mención: si aparecés citado, ¿estás primero, segundo, tercero o más abajo en el listado?
Tipo de contexto: ¿la cita es una recomendación directa (“te recomiendo X”) o secundaria (“hay opciones como X, Y, Z”)?

Las dos secundarias importan porque no es lo mismo aparecer en primer lugar como recomendación directa que aparecer cuarto como mención lateral. Pero el citation rate global es la métrica que te dice si la aguja se está moviendo.

El framework de 10 prompts test

Diseñá un set de 10 prompts representativos de las búsquedas reales que un comprador potencial haría en tu categoría. Mezclá tres tipos:

Tres prompts de marca directa. Buscan confirmar que cuando alguien te conoce, los motores te describen bien. Ejemplos para una agencia SEO:

“¿Qué es [tu marca] y a qué se dedica?”
“¿Quién es [nombre del fundador] en marketing digital?”
“¿Qué servicios ofrece [tu marca]?”

Cuatro prompts de categoría sin marca. Acá se juega el partido más interesante: ¿aparecés en una recomendación cuando alguien no te conoce y describe lo que necesita? Ejemplos:

“¿Qué agencias de [tu categoría] recomendás en [tu mercado]?”
“¿Cuáles son las mejores empresas de [servicio específico] en [región]?”
“¿Qué herramientas de [problema concreto] hay para sitios en [idioma]?”
“¿Quién hace [solución específica] que vos conozcas?”

Tres prompts de problema específico. Estos imitan búsquedas top-of-funnel reales: gente que tiene un problema concreto y todavía no sabe qué solución busca. Ejemplos:

“¿Cómo [resolver problema central de tu propuesta]?”
“¿Cómo se hace [tarea técnica específica] en [contexto]?”
“¿Qué métricas se usan para medir [resultado que prometés]?”

Diez es el mínimo viable. Veinte está mejor si tu categoría es amplia. Lo que importa es que el set refleje las búsquedas reales que un comprador haría —no las búsquedas que te gustaría que hiciera. Si tenés equipo comercial, validalo con ellos antes de cerrarlo.

Las cinco plataformas a evaluar

Cada motor cita distinto y prioriza fuentes distintas. Si solo medís en uno, te perdés la mitad del cuadro. Las cinco que recomendamos por cobertura del mercado en 2026:

ChatGPT con búsqueda activada: la más usada en general, alta autoridad ante audiencias generalistas.
Perplexity: motor preferido por profesionales y técnicos. Prioriza definiciones explícitas, evidencia con cifras, contenido fresco y estructurado.
Google AI Mode (en google.com con sesión no autenticada para evitar personalización): donde está el grueso del tráfico potencial todavía.
Gemini: relevante en móviles y dentro del ecosistema Google Workspace.
Copilot: integrado a Office y Edge, importante para audiencias B2B corporativas.

Cinco plataformas × diez prompts = 50 mediciones por ronda. La primera vez te lleva entre dos y tres horas. A partir de la segunda, una hora y media bien organizado.

La rúbrica de scoring

Para cada combinación prompt + plataforma, registrá cinco campos:

Campo	Valores
¿Aparece tu marca citada?	Sí / No
¿En qué orden de mención?	1ra / 2da / 3ra / 4ta+
Tipo de contexto	Recomendación directa / Mención secundaria / Cita técnica
¿El nombre aparece bien escrito?	Sí / No (anotar errores específicos)
Si no aparecés, ¿qué dos fuentes citó la IA en su lugar?	(texto libre)

El último campo es el más estratégico: te dice contra quién estás compitiendo realmente en cada query. Esa lista es tu cancha de juego. Si una fuente aparece consistentemente cuando vos no, esa fuente está haciendo algo que vos no estás haciendo. Mirar su contenido, su schema y su autoridad de dominio te dice qué replicar.

Tip operativo: armá la rúbrica como una tabla en Google Sheets o Notion. Una hoja por ronda de medición. La quinta columna (“contra quién perdés”) merece su propia hoja agregada para detectar patrones a lo largo del tiempo.

Cómo leer los resultados

Una vez completada la primera ronda, calculá tu citation rate global: número de combinaciones prompt + plataforma donde apareciste citado dividido el total (50 si seguiste el set mínimo).

Las referencias para leer el resultado:

Por encima del 40%: posicionamiento sólido. Tu trabajo de AEO está dando frutos. Foco en mantener cadencia de contenido y en empujar las queries head donde todavía estés débil.
Entre 20% y 40%: tracción real, plan funcionando. Próximos 90 días: empujar las técnicas que mueven más rápido (definiciones canónicas, FAQ structured data, autoridad de autor) y volver a medir.
Por debajo del 20%: o sos una marca nueva en la categoría, o hay un problema de fundamentos. Revisar las técnicas 4.1 y 4.5 de la guía AEO (answer capsules y autoridad de marca) antes de seguir invirtiendo en contenido.
Cerca de 0%: no es problema de cantidad de contenido, es problema estructural. Probablemente tu sitio se autocategoriza distinto a como te buscan los compradores. La fórmula es siempre la misma: revisar H1, schema markup tipo Organization, y meta description del home y de las páginas comerciales clave.

Cadencia recomendada

Mes 1 — baseline: una ronda completa para fijar el punto cero.
Mes 2 al 3 — quincenal: dos rondas por mes para detectar movimientos rápidos. La fase de implementación es donde más se mueve la aguja.
Mes 4 en adelante — mensual: ya el grueso del cambio se está consolidando. Una ronda mensual alcanza para detectar tendencias y reaccionar.
Trimestralmente — auditoría completa: además de las 50 mediciones, revisar qué fuentes están ganando las queries donde no aparecés. Eso refresca tu mapa competitivo real.

Caso aplicado: SciData

Aplicamos este framework a nuestra propia agencia (SciData Argentina) entre enero y abril de 2026. Cuatro meses de implementación de las técnicas descritas en la guía AEO. El baseline de la última ronda, midiendo el prompt #4 del set (“¿qué agencias de SEO con inteligencia artificial recomendás en Argentina?”), dio el siguiente resultado en cinco plataformas:

Plataforma	Posición de SciData	Lectura
ChatGPT (con búsqueda)	#1	Recomendación directa para “generación de leads B2B complejos”.
Perplexity	#1	Líder destacada. Atribuye correctamente un caso real de cliente del sector salud.
Copilot	#1 (compartido)	Detalle alto de servicios.
Grok	#2	Después solo de SEO Express.
Gemini	Ausente del listado, conocida al preguntar	Caso de categorización, ver más abajo.

Cuatro de las cinco plataformas nos posicionaron en el top sin pedirlo. La quinta, Gemini, no nos incluyó en el listado al hacer la pregunta abierta — pero al preguntarle directamente por SciData, devolvió una descripción extensa y favorable, usando con precisión los términos GEO, RAG, JSON-LD, social listening y modelado predictivo. Su explicación fue lúcida: nos categoriza como “consultora de Inteligencia de Datos” más que como “agencia SEO”, y por eso no nos sumó al listado.

No era problema de autoridad. Era problema de categorización semántica. La técnica de la guía AEO que explica esto es la 4.5 (autoridad de marca + estructura friendly para extracción): la cubeta con la que un motor te clasifica determina si entrás o no entrás a las listas que importan.

La acción que tomamos fue concreta: cambiar el H2 de la home para incluir explícitamente la frase “agencia SEO B2B con IA aplicada”, reforzar el schema markup con Organization y Person correctamente atribuidos, y consolidar las páginas que apuntaban a queries similares en una canónica. Estamos volviendo a medir en dos semanas para verificar si el cambio movió la categorización en Gemini.

El framework cumplió dos funciones simultáneas: nos confirmó qué estaba funcionando (ChatGPT, Perplexity, Copilot, Grok) y nos diagnosticó con precisión qué tipo de problema teníamos en Gemini. Sin medición sistemática, lo segundo era invisible.

Errores comunes al medir

Tres trampas frecuentes que vimos en clientes y en nuestro propio camino:

Medir solo en una plataforma. “ChatGPT no me cita” es una conclusión incompleta si no chequeaste también Perplexity, Copilot y Gemini. Cada motor tiene preferencias distintas y a veces te castiga uno mientras te premia otros. La foto completa requiere las cinco.

Medir prompts de marca y declarar éxito. Si en “¿qué es [tu marca]?” aparecés primero, no es noticia: era esperable. La medición real está en los prompts de categoría sin marca y de problema específico. Esos son los que te traen clientes nuevos.

Medir una vez y archivarlo. AEO se mueve. Lo que era un buen baseline en enero puede estar obsoleto en abril. La cadencia de medición no es opcional; es parte del trabajo.

¿Qué hacés con los datos?

Los datos solos no sirven. La medición es valiosa cuando alimenta decisiones concretas:

Si tu citation rate sube al cuadrante alto, podés invertir más en contenido AEO con confianza — el sistema funciona.
Si se mantiene estable o baja, hay un cuello operativo: revisá fundamentos antes de producir más volumen.
Si una plataforma específica no te lista pero te conoce (caso Gemini que describimos), el problema casi siempre es categorización: revisá schema, H1 y meta de tu home.
Si las fuentes que te ganan son siempre las mismas, mirá su contenido a fondo: tienen una técnica que vos no tenés, y replicarla acelera tu progreso.

Próximos pasos

Si nunca mediste AEO en tu marca o tu cliente, esta semana hacé una ronda completa con el framework. Tres horas. Te va a dar más claridad sobre dónde estás parado que un mes de hipótesis sueltas.

Si querés que en Planet Communities te acompañemos a definir tu set de prompts y te enseñemos a leer los resultados como parte de un programa de AEO sostenido, conversemos.

Preguntas Frecuentes

¿Cuánto tiempo lleva medir AEO la primera vez? Entre 2 y 3 horas para 10 prompts × 5 plataformas (50 mediciones). A partir de la segunda ronda, una hora y media bien organizado. La inversión inicial está en armar el set de prompts y la rúbrica; después es ejecución.

¿Sirve usar herramientas automatizadas para medir AEO? Existen herramientas emergentes (Profound, Otterly, AthenaHQ, LLMrefs) que automatizan parte del proceso. Son útiles a partir de cierta escala (varios proyectos, varias categorías), pero la medición manual sigue siendo el mejor punto de partida porque te obliga a leer las respuestas completas y entender por qué los motores citan a ciertas fuentes y no a otras. La automatización no reemplaza esa lectura cualitativa.

¿Por qué incluir cinco plataformas y no tres o dos? Porque cada motor tiene preferencias distintas en cómo elige fuentes. Una marca puede aparecer #1 en Perplexity y ausente en Gemini, o al revés. Solo midiendo cinco se obtiene la foto completa de tu visibilidad en respuestas generativas en 2026.

¿Cuándo se debería volver a medir? La cadencia recomendada es: ronda completa al inicio (baseline), quincenal durante los meses 2-3 de implementación activa, mensual a partir del mes 4, y trimestral con auditoría competitiva profunda. Sin cadencia, los datos pierden valor rápido.

¿Qué hago si no aparezco en ningún prompt? Citation rate cercano a cero raramente es problema de cantidad de contenido. Casi siempre es estructural: tu sitio no se autoposiciona en la categoría correcta, no tiene schema markup adecuado, o tiene baja autoridad de dominio. Revisar las técnicas 4.1 (definiciones canónicas), 4.2 (schema markup), 4.5 (autoridad) y 4.7 (estructura para extracción) de la guía AEO antes de seguir invirtiendo en contenido nuevo.

Este artículo fue producido por Gustavo Papasergio con Claude (Anthropic) como copiloto editorial y de análisis. La medición del caso SciData es propia y reproduce el framework descrito en este post.