Accesibilidad · Fediverso · Infraestructura

Bot de ALT automático para Mastodon

Marzo 2026 · ElenaMusk

Las imágenes sin texto alternativo son una barrera real para personas que usan lectores de pantalla. En Mastodon y otras redes del Fediverso hay bastante sensibilidad hacia la accesibilidad, pero describir cada imagen lleva tiempo y no todo el mundo sabe por dónde empezar.

Por eso existe @mapachedescribe@tuiter.rocks: un bot que genera una propuesta de texto ALT automático para Mastodon cuando se le menciona en un toot con imagen. Funciona completamente en local y cualquier administrador de instancia puede montarlo. El bot está actualmente en beta pública.

Cómo usarlo

Menciona al bot en el mismo toot que incluye la imagen, o responde a ese toot mencionándolo. En unos segundos devuelve una descripción automática que puedes editar antes de usarla. Si quieres que sea privado, también puedes enviarle un mensaje directo con la imagen.

Si necesitas ayuda, menciona al bot con el texto ayuda o help.

Por qué es importante el texto ALT

El texto alternativo permite que las personas que usan lectores de pantalla puedan entender el contenido de una imagen. Sin esa descripción, una publicación con imagen simplemente aparece como «imagen» sin contexto.

Añadir ALT hace que Mastodon y el resto del Fediverso sean más accesibles y permite que más personas participen en la conversación.


Cómo funciona

El bot escucha menciones en tiempo real mediante el stream de Mastodon. Cuando detecta una solicitud válida, marca la publicación con un favorito para confirmar que ha sido añadida a la cola. Después:

  • descarga la imagen
  • genera una descripción con un modelo de visión
  • la traduce al español
  • responde al toot con el texto sugerido

Si la imagen ya tiene ALT, el bot lo indica y no genera nada nuevo. Si un toot incluye varias imágenes, el bot puede procesar hasta 4.


Cómo usarlo según tu situación

El bot funciona de formas distintas dependiendo de quién lo usa y para qué.

Si publicas imágenes y quieres añadir ALT
Menciona al bot en el mismo toot que incluye la imagen, o responde a ese toot mencionándolo. El bot te devuelve una propuesta que puedes copiar, editar y pegar como ALT – antes de publicar o editando el toot después – o simplemente usarla como referencia para escribir la tuya.

Si eres persona ciega o con baja visión y quieres saber qué hay en una imagen
Responde al toot con la imagen y menciona al bot. La respuesta llega en el hilo en visibilidad no listada. Para verla sin abrir el hilo manualmente, lo más cómodo es seguir al bot desde tu cuenta – así su respuesta aparece directamente en tu timeline. Ten en cuenta que las descripciones son automáticas y pueden tener errores.

Si eres persona sorda o con discapacidad auditiva
El bot describe imágenes, no transcribe audio ni vídeo. Para contenido de vídeo o audio, la práctica recomendada sigue siendo que quien publica incluya una transcripción o subtítulos.

Si tienes dificultades cognitivas o de lectura
Las descripciones que genera el bot son en texto plano, sin formato especial. Pueden ser largas o tener frases algo torpes – son automáticas. Puedes editarlas o usarlas solo como referencia para escribir una descripción más sencilla tú mismo.

Visibilidad de las respuestas

El bot responde siempre en no listado (unlisted), salvo que el toot original sea privado o directo, en cuyo caso respeta esa visibilidad. La respuesta llega al hilo, pero no aparece en timelines públicos ni en la página de inicio de la instancia. Si no sigues al bot, solo verás su respuesta si abres el hilo completo.

Práctica recomendada

El bot da un punto de partida, pero el ALT lo pone quien publica la imagen. Lo ideal es usarlo así: pide la descripción, cópiala, edítala si hace falta, y pégala en el campo ALT de la imagen – antes de publicar o editando el toot después. Así llega a todo el mundo, no solo a quien siga al bot o abra el hilo.

Modelos utilizados

La implementación publicada en este repositorio utiliza los siguientes modelos:

ModeloUso
microsoft/Florence-2-baseGeneración de descripción de imagen
facebook/nllb-200-distilled-600MTraducción automática al español

Florence genera una descripción detallada de la imagen y NLLB la traduce al español. Todo el flujo funciona en local, sin depender de APIs externas.


Licencias de los modelos

ModeloLicenciaUso comercial
microsoft/Florence-2-baseMITPermitido
facebook/nllb-200-distilled-600MCC-BY-NC 4.0No permitido

Las imágenes no se envían a servidores externos ni a servicios de terceros. El procesado ocurre completamente en el servidor donde corre el bot.

Si tu caso de uso es comercial, NLLB-200 no es adecuado por su licencia. En ese caso conviene sustituirlo por una alternativa compatible, como Helsinki-NLP/opus-mt-en-es, que se distribuye bajo licencia Apache 2.0.


Requisitos del servidor

RequisitoValor recomendado
Python3.10 o superior
RAM4–8 GB
GPUNo necesaria
Dependencias externasNinguna

Tiempo medio por imagen: entre 8 y 20 segundos dependiendo del servidor.


Alternativa más ligera (no incluida en este repo)

El bot puede adaptarse para usar componentes con menor consumo de RAM, útil en VPS más modestos. Una combinación posible sería:

ComponenteAlternativa ligera
Modelo de visiónSalesforce/blip-image-captioning-base
TraducciónHelsinki-NLP/opus-mt-en-es o LibreTranslate

Las descripciones suelen ser menos detalladas que con Florence, pero el tiempo de respuesta y el consumo de memoria mejoran notablemente. Esta variante no está implementada en el repositorio actual.


Cómo instalarlo

git clone https://git.mapache.rocks/elenamusk/mapachedescribe
cd mapachedescribe

python3 -m venv venv
source venv/bin/activate

pip install -r requirements.txt

Crear archivo .env:

MASTODON_BASE_URL=https://tuinstancia.social
MASTODON_ACCESS_TOKEN=TU_TOKEN

Repositorio del proyecto: git.mapache.rocks/elenamusk/mapachedescribe

Si administras una instancia Mastodon, también puede interesarte nuestro relay del Fediverso y directorio de instancias en español , pensado para ayudar a comunidades pequeñas a federar más rápido.


Preguntas frecuentes

¿El bot modifica el ALT original?
No. Si una imagen ya tiene texto alternativo, el bot simplemente lo indica y no genera una nueva descripción.

¿Funciona con cualquier instancia Mastodon?
Sí. Solo necesita acceso a la API de la instancia y un token de aplicación.

¿Es obligatorio usar GPU?
No. El bot funciona en CPU, aunque el tiempo de respuesta puede variar según el servidor.

¿Puedo ignorar al bot?
Sí. Las etiquetas #nobot, #noaltbot y #noimagebot en una publicación hacen que el bot la ignore.


Las descripciones son automáticas.

Los modelos de visión pueden cometer errores o interpretar incorrectamente algunas imágenes. El resultado es una sugerencia que conviene revisar antes de usar como ALT definitivo.

Deja un comentario