El mundo financiero disfruta presentándose como racional. En un gráfico hay matemáticas. En un informe, formulaciones contenidas. En las noticias, análisis “neutral”. Y luego aparece Reddit con “unbelievable opportunity”, “everyone is buying”, y el mercado olvida lo que significan la prudencia y la racionalidad. En este proyecto no observé los precios, sino las palabras. Observé cómo los trucos cognitivos del cerebro viven dentro de los textos: informes, noticias y redes sociales.

Reuní tres capas de realidad financiera entre 2020 y 2025: informes de empresas públicas de EE. UU. (10‑K y 10‑Q de SEC EDGAR), noticias financieras y grandes conjuntos de publicaciones de Twitter y Reddit dedicadas al mercado. Los informes son el escenario oficial, donde cada palabra pasa por abogados y compliance. Las noticias funcionan como dramaturgos: convierten los mismos números en “record-breaking performance” o en “worst decline since 2008”. Las redes sociales se parecen más a un bar, donde todos hablan alto, con emoción y, a menudo, con mucha más confianza de la que justifican los hechos. Los tres describen el mismo mercado, pero en el lenguaje de distintos sesgos cognitivos.

Aquí lo importante no son solo las palabras, sino la diferencia entre géneros: el lenguaje de compliance, el encuadre mediático y la retórica de la multitud pueden describir el mismo mercado, pero generan señales conductuales distintas.

Para que estos sesgos pudieran medirse y no solo percibirse de forma intuitiva, seleccioné diez fenómenos clave de las finanzas conductuales y los traduje en patrones léxicos concretos. Por ejemplo, la sobreconfianza en redes sociales suele aparecer mediante marcadores como “I’m 100% sure”, “guaranteed profit”, “can’t lose”, “no way this goes down” y “this is a sure thing”. El comportamiento gregario emerge en textos con frases como “everyone is buying”, “we all know”, “join us”, “don’t miss out” y “the whole market is in”, donde el “nosotros” de pronto parece saber más que cualquier individuo. El framing en las noticias vive en formulaciones como “only minor correction” en lugar de “double-digit drop”, “growth opportunity” en vez de “high risk”, o en el énfasis sobre “stability” y “resilience” incluso cuando el tema real es una caída.

La lista también incluyó anclaje: construcciones como “from 52‑week high”, “compared to the peak” y “since all-time high”, que fijan la percepción a un punto de referencia como si fuera la norma. Para la aversión a la pérdida, importan expresiones como “protect your capital”, “avoid drawdown”, “not willing to lose a single dollar” y “can’t afford any loss”. La sobrecarga informativa aparece en textos que subrayan “too much data”, “endless news flow”, “overwhelmed with information” y “no time to process all reports”, lo que conecta directamente con la manera en que el cerebro empieza a ahorrar en profundidad de análisis. Una categoría aparte es la confianza excesiva en algoritmos, expresada mediante frases como “the bot knows better”, “the model is always right”, “just follow the algo” y “AI already figured it out”.

El siguiente paso fue ponerle una regla a todo esto. Contar palabras sueltas no sirve de mucho si no distinguimos entre un sesgo que aparece raramente pero golpea con máxima intensidad y otro que está presente en todas partes como ruido de fondo. Para cada sesgo en cada canal, primero observé en qué proporción de textos aparecían los marcadores característicos, y luego qué tan densamente estaban presentes allí donde ya existían. Un informe con una sola mención de “risk” es una cosa; decenas de posts en Reddit con “we all know this will go to the moon” y “just buy, don’t overthink” son otra completamente distinta, aunque el conteo bruto de marcadores parezca similar.

Tras aplicar NLP al corpus completo y revisar manualmente parte del material, surgieron varios patrones interesantes. Los informes resultaron estar “llenos” de marcadores de sesgo desde un punto de vista estadístico: los contenían casi siempre. Pero cuando se observa la densidad, la capa es fina. Muy fina. Hay mucho “risk”, “uncertainty”, “volatility” y “potential”, pero dentro de construcciones como “we are subject to market risk” o “there is potential impact of volatility”. Ese es el lenguaje de la protección, no del pánico. Así apareció un efecto que empecé a llamar la “anomalía de los informes”: casi todos los textos están marcados por indicadores, pero la verdadera intensidad emocional es baja.

En redes sociales, el panorama es distinto. Allí son raras las fórmulas complejas, pero mucho más frecuentes los juicios categóricos. Cuando el análisis detecta grupos de textos donde aparecen juntos “guaranteed”, “you can’t lose here”, “everyone is all-in”, “if you miss this, you’ll regret forever” y “the bot already backtested this strategy”, la densidad de sobreconfianza, comportamiento gregario y confianza algorítmica se dispara. No se trata de ruido de fondo, sino de estallidos: en días normales el feed puede parecer relativamente tranquilo, pero en momentos de hype o miedo el lenguaje cambia con brusquedad, y ese cambio en sí mismo se convierte en señal conductual.

En las noticias, el lenguaje está más controlado, pero tampoco es neutral. Aquí el framing hace gran parte del trabajo: “only temporary setback” en lugar de “caída significativa”, “investors take profits” cuando en realidad se producen salidas masivas, “strong fundamentals despite short-term volatility” incluso cuando la tabla resulta bastante menos impresionante. En la tesis destacaban varios subtipos de framing: framing orientado a objetivos (“on track to achieve long-term targets”), framing de evitación (“measures to avoid further losses”), framing positivo (“solid growth”, “resilient performance”) y framing de marketing (“exclusive opportunity”, “unique market position”). En conjunto, esto crea un entorno informativo estable en el que los hechos nunca llegan solos: llegan ya vestidos con el estado de ánimo deseado.

Cuando estas tres capas se combinan, se vuelve evidente lo fácil que es engañar a un modelo simple. Ve “risk” y “uncertainty” en un informe y los cuenta como sesgo o miedo. Ve unas cuantas frases tipo meme en un hilo y quizá solo las suma al resto. Sin contexto, un informe puede parecer tan “emocional” como una ola de FOMO, aunque en un caso estemos leyendo armadura legal, y en el otro, convicción colectiva de que “aquí es imposible equivocarse”.

Una pregunta para ti: ¿también usas modelos de IA para “leer el mercado” más rápido, revisar informes, extraer señales de noticias y resumir redes sociales? Es normal; al fin y al cabo estamos en 2026. Pero hay una trampa. Un algoritmo que no distingue género, no reconoce ironía y no ve patrones conductuales del lenguaje se convierte en un participante más del comportamiento gregario, solo que sin el hábito de dudar. Detecta una palabra y enseguida concluye algo sobre el “sentimiento del mercado”, sin preguntarse si realmente se trata de una señal de que “todos corren”, o simplemente de otro párrafo en la sección Risk Factors de un 10‑K.

Estos modelos extraen textos, construyen índices de “miedo”, “codicia” y “optimismo”, resaltan cosas en rojo y verde y sugieren dónde hacer clic. Si su visión del lenguaje es plana, repiten los mismos errores cognitivos que comete una persona, solo que más rápido. El algoritmo no se cansa ni se pone nervioso, pero tampoco se pregunta si esto es realmente un cambio de sentimiento o simplemente el estilo del documento. Justamente ahí hace falta una capa adicional: una que distinga género, contexto y patrones conductuales, en lugar de limitarse a contar palabras.

¿Cómo puede aplicarse?

Para los equipos FinTech y los bancos, esto es una cuestión de arquitectura de sistemas. Los modelos deben aprender a distinguir el lenguaje de compliance en los informes del lenguaje de picos conductuales en redes sociales y noticias. Los indicadores basados en diccionarios son más útiles allí donde el lenguaje está “vivo”: en los textos periodísticos y en la conversación pública, como detectores tempranos de oleadas gregarias y sobreconfianza. En el caso de los informes, es mejor combinarlos con modelos contextuales como FinBERT o con LLM especialmente entrenados, además de una revisión cualitativa obligatoria. Eso permite construir perfiles separados de comportamiento gregario, framing y confianza algorítmica según el canal, sin penalizar a una empresa solo por cumplir honestamente con requisitos regulatorios.

Figura 1
Se añadirá desde la tesis
Figura 2
Se añadirá desde la tesis
Figura 3
Se añadirá desde la tesis
Figura 4
Se añadirá desde la tesis

En el fondo, este caso trata sobre el lenguaje. Y sobre la mente. Y sobre cómo ambos interactúan con el dinero. Trata de los patrones cognitivos incrustados en los textos, patrones que mueven los mercados no menos que los datos macro. Y trata también de que, en 2026, la ventaja no pertenece a quien tiene más información, sino a quien comprende mejor a través de qué lentes esa información llega tanto a la persona como a sus modelos.