Para el desarrollo de la investigación 'Los negacionistas de Telegram' en Maldita.es hemos usado una muestra de 574.414 mensajes enviados por 39 canales públicos de Telegram entre enero de 2020 y septiembre de 2022.
Cómo seleccionamos los canales
El punto de partida de la investigación fueron 24 canales que sabíamos que habían difundido desinformación a partir del trabajo diario de Maldita.es en la detección de bulos y las investigaciones previas en las que se detectaron actuaciones coordinadas en Telegram y otras plataformas. Estas actuaciones se publicaron en diversas investigaciones, como cuando explicamos la red española de corona-negacionistas “por la verdad” o cuando descubrimos un cambio de narrativa del negacionismo de la COVID-19 a mensajes prorrusos. Maldita.es también había investigado con anterioridad el funcionamiento de las redes de grupos negacionistas, como en el caso del entramado “Médicos por la Verdad”.
De estas investigaciones y trabajos previos se seleccionó un grupo inicial de 24 canales. Para ser seleccionados definimos que debían tener un mínimo de 5.000 suscriptores.
Entonces realizamos una primera extracción de los mensajes de esos 24 canales y eso nos permitió identificar otros canales de Telegram que eran fuente de los canales de la muestra inicial. Es decir, que sus mensajes eran reenviados por esos 24 canales. Esto permitió identificar 20 canales más, de los cuáles se seleccionaron únicamente 15, ya que cinco no cumplían con el requisito inicial de tener más de 5.000 suscriptores. Esto nos llevó a tener una muestra final de 39 canales.
Todos los canales de los que se obtuvieron los mensajes son públicos, es decir, cualquier persona con una cuenta de Telegram puede leerlos sin suscribirse o registrarse en ninguna parte. Los canales de Telegram están orientados a la difusión de mensajes hacia un público suscrito y no tienen un máximo de seguidores.
Cómo obtuvimos los datos
Después de seleccionar los 39 canales se hizo una extracción de los mensajes enviados por todos ellos. Automatizamos la descarga de los mensajes con la librería Telethon de Python y creamos una base de datos con ellos.
Extrajimos todos los mensajes envíados por los 39 canales desde su fecha de creación hasta el último mensaje enviado en el día de la extracción. Para estandarizar el análisis y comparar el mismo período sólo utilizamos los enviados entre el 1 de enero de 2020, antes del inicio de la pandemia de la COVID-19 en marzo de ese mismo año, hasta el 30 de septiembre de 2022. La muestra para el análisis estaba conformada por los 574.414 mensajes enviados en ese período.
Qué datos obtuvimos
Se extrajo la siguiente información de cada mensaje:
- El contenido del mensaje.
- El canal que lo ha enviado.
- Si el mensaje ha sido reenviado desde otro canal.
- Canal del que procede el mensaje en el caso de los reenviados.
- Webs incluidas en el texto de los mensajes
- Marca de tiempo (fecha y hora) de envío del mensaje por parte del canal.
- Número de visualizaciones de cada mensaje a 18 de octubre de 2022, fecha de la última extracción de los datos (número de veces que la publicación ha sido vista por usuarios diferentes).
No se obtuvieron contenidos multimedia (imágenes, audios o vídeos) y el análisis de contenido se ha limitado al texto que aparece en los mensajes.
Además, para cada uno de los 39 canales, se obtuvo la siguiente información:
- Fecha de creación.
- Enlace directo al canal de Telegram.
También se obtuvieron datos históricos del número de suscriptores de cada canal utilizando las herramientas Telemetrio y TGStat, que permiten obtener estadísticas de canales y grupos en Telegram.
Para cada uno de los canales también registramos si tienen presencia en en otras redes sociales (Twitter, YouTube, TikTok, Odysee, Facebook, Twitch…), webs externas y otro tipo de presencia en Telegram, como más canales o grupos.
Cómo organizamos los mensajes
A partir de la primera extracción de datos (24 canales) entre el 25 de diciembre de 2021 y el 25 de abril de 2022 se hizo un análisis de frecuencia de palabras en el texto de los mensajes. En un primer paso se eliminaron aquellas palabras que son más recurrentes en idioma español y después se seleccionaron las que tenían más de 100 repeticiones. Con la ampliación de la extracción a los 39 canales se repite el mismo proceso para todos los mensajes entre enero de 2020 y septiembre de 2022.
A partir de eso se crea un registro de palabras clave que permite clasificar los mensajes con palabras como indicador temático único, centrados en palabras que permitan clasificarlos en las temáticas de interés de la investigación: la invasión de Ucrania, la pandemia de COVID-19, la migración, el feminismo y el cambio climático.
Para agrupar variaciones de palabras (vacuna, vacunados, vacunación) utilizamos el programa OpenRefine que permite hacer un clustering para ayudar a hacer estas agrupaciones.
El resultado es de 139 palabras usadas para clasificar los mensajes en las cinco categorías distintas
- COVID (89 palabras clave)
- Ucrania (33 palabras clave)
- Migración (8 palabras clave)
- Feminismo (6 palabras clave)
- Cambio climático (7 palabras clave)
Para analizar los datos también utilizamos el lenguaje de programación Python y los resultados del análisis pueden leerse en las tres entregas de la investigación publicadas.
Cómo se pueden descargar y reutilizar nuestros datos
Los datos utilizados en el análisis de esta investigación se pueden descargar en este enlace.
Se trata de un fichero comprimido .zip que contiene los siguientes ficheros:
message.csv:
- id: identificador único del mensaje
- text: texto completo del mensaje
- views: número total de vistas al mensaje a fecha de extracción de los datos (18 de octubre de 2022)
- date: fecha de publicación del mensaje en el canal
- channel_forwarded_from_id: identificador numérico del canal del que proviene el mensaje reenviado
- channel_id: identificador del canal
channel.csv:
- id: identificador númerico del canal
- title: nombre del canal
- is_original: si tiene valor 1 significa que pertenece a la muestra de 39 canales analizada y valor 0 si no pertenece a la muestra
- url: url pública de Telegram de acceso al canal (sólo incluido en los canales de la muestra)
message_site.csv:
- message_id: identificador de mensaje (igual que el id en message.csv)
- site_id: identificador único del sitio web
site.csv:
- id: identificador único del sitio web
- host: url de acceso a la web general
- path: resto de la url que dirige al contenido concreto
site_clustered.csv:
- host: url de acceso a la web general
- grupo: agrupación de las webs realizada por Maldita.es
keywords.csv:
- keyword: palabra clave utilizada para clasificar el texto del mensaje
- categoria: categorías utilizadas en la investigación (COVID-19, Ucrania, migración, feminismo y cambio climático)
Los datos de nuestra investigación se pueden reutilizar libremente, pero hay que citar a Maldita.es como fuente.
Todo nuestro contenido se encuentra bajo la licencia Creative Commons BY-SA. Puedes copiar y redistribuir el material en cualquier medio o formato. Puedes remezclar, transformar y crear a partir del material para cualquier finalidad, incluso comercial. Pero debes reconocer la autoría de Maldita.es del material. Si modificas el contenido o solo utilizas una parte también debes reconocer la autoría dentro del material. Puedes leer la licencia completa aquí.
Si tienes cualquier duda sobre nuestra investigación, nos puedes escribir a [email protected] y si tienes cualquier duda sobre sobre republicaciones, acuerdos y alianzas, nos puedes escribir a [email protected].