Este informe abarca principalmente la portada y
cola de la edición general
de meneame.net
desde el
07/12/2005
hasta el
31/12/2020 23:52
,
lo que representa
2.678.557
noticias y
31.667.068
comentarios repartidos en:
Estado | Noticias | Comentarios |
---|---|---|
queued | 1.807.189 |
13.634.448 |
discard | 394.373 |
1.740.696 |
autodiscard | 243.343 |
792.774 |
published | 221.303 |
15.415.920 |
abuse | 12.270 |
83.062 |
sin estado | 79 |
168 |
Para ver en más detalle qué enlaces se han descartado para evitar ruido puedes consultar la sentencia sql que ha servido de fuente.
Adicionalmente, para las gráficas de uso (apartado 2) se han utilizado datos de TODO meneame (no solo la edición general) incluyendo los 2.054.051 posts del notame.
Las gráficas mostradas a continuación son interactivas, prueba a elegir el muestreo y los rangos temporales con los combos, a mostrar y ocultar datos pinchando en las leyendas y a ver información detallada pasando el ratón sobre las gráficas.
Nota: Antes de continuar con la lectura te aviso de que no soy un científico de datos y esto es un proyecto personal para matar el rato, lo normal es que haya errores, imprecisiones y sesgos.
1. El contenido de Méneame a través de los años
1.A ¿Cuántas noticias hay por estado?
Mostrar cantidad de noticias en
¿Qué vemos aquí?
-
La gráfica (tanto en % como en números absolutos)
confirma que el algoritmo de Méneame añade noticias en portada
a un ritmo más o menos constante, con independencia
de cuántas noticias se estén enviando y descartando (buscar
se promoverá una media de una noticia por hora
en Menéame FAQ). - La gráfica en números absolutos nos muestra que el pico de envíos fue en 2012 y desde entonces no ha hecho más que bajar hasta estancarse en 2017, teniendo un ligero repunte en 2020 probablemente motivado por la crisis del COVID-19.
1.B ¿Cuántas noticias hay por categoría/sub?
Mostrar cantidad de noticias en usando
(*) Antes de 2014 más del 98% de las noticias están en la categoría mnm
ya que los los subs
(ahora llamados
comunidades)
no aparecieron hasta
marzo de 2014.
(*) Los cambios realizados en
septiembre de 2020 y
octubre de 2020
apenas afectan a esta gráfica así que ten en cuenta que aquí
hablamos de las categorías tal y como eran antes de octubre del 2020, es decir,
cultura
abarca lo que ahora es
cultura
y
ciencia
, y
actualidad
abarca lo que ahora es
actualidad
y
política
.
¿Qué vemos aquí?
-
Alternando entre
usando todas las noticias
yusando solo las noticiás que llegaron a portada
observamos claramente que la portada (en cuanto a distribución de contenido) es un calco de las noticias que mandan los usuarios, es decir, ¿por qué el 60% de la portada son noticias son de actualidad? porque el 60% de las noticiás enviadas son de actualidad, y así con todo. -
La categoría
actualidad
no solo es la más usada con diferencia, si no que poco a poco va comiendo terreno a las demás.
1.C ¿De dónde son las noticias?
Mostrar datos en de para los siguientes dominios:
(*) AEDE
agrupa todos los medios pertenecientes a la
Asociación de Editores de Diarios Españoles y el
Centro Español de Derechos Reprográficos
según este listado
de enero de 2015.
(*) Los dominios tipo *.ejemplo.com
agrupan el
dominio raíz (ejemplo.com
) y sus subdominios
(subdominio.ejemplo.com
).
(*) Para simplificar, solo aparecen como seleccionables los dominios
que han obtenido al menos 50 portadas algún año. Todos los demás
están agrupados en la etiqueta OTROS
.
¿Qué vemos aquí?
-
Como en
1.B
, aquí también se observa que la portada representa perfectamente lo que se está enviando. No se puede decir que en la portada haya menos noticiás del medio X y más del medio Y de lo que les correspondería "naturalmente". -
En consonancia con el punto anterior, la efectividad del bloqueo
AEDE
se explica mayoritariamente por una reducción drástica del número de noticias enviadas de esta fuente, siendo un factor muy secundario los votos negativos que puedan haber recibido estas noticias. La sospecha de que las noticiasAEDE
no llegaban a portada porque había una mafia que las hundía es una teoría conspiranoica que no se puede sustentar con datos. -
Aunque la etiqueta
OTROS
parece muy abultada hay que tener en cuenta que es la suma de todas las noticias que vengan de cualquier fuente alternativa (aquellas que ningún año han tenido más de 50 portadas). Aún así, se puede observar que cada vez hay menos noticias de sitios alternativos, incluso durante el boicot. -
A pesar del boicot, los medios
AEDE
han sido siempre los reyes de Menéame. Ningún otro medio ha sido enviado más que losAEDE
, ni siquiera durante el boicot, y en cuanto a la portada solo ha sido superado muy levemente, y solo durante el boicot, por eldiario.es. -
Ningún medio
no-AEDE
parece haber sido especialmente beneficiado por el boicot ya que todos tienen valores similares antes, durante y después del boicot salvo eldiario.es, pero este medio se fundó pocos meses antes de que empezará el boicot así que no tiene ningún sentido decir "pues eldiario.es nunca llegaba a portada antes del boicot". -
En definitiva, la edición principal de Menéame
cada año tiene menos fuentes distintas y cada vez se parece
más a un resumen de prensa generalista principalmente compuesto
por medios
AEDE
y otros medios que aunque no seanAEDE
también son mainstream.
1.D ¿De qué se habla en Menéame?
Mostrar datos en para las siguientes etiquetas:
(*) Para simplificar, solo aparecen como seleccionables los tags que han tenido como mínimo 300 portadas.
(*) Para eliminar ruido se han
unificado etiquetas similares, se han realizado conversiones entre sinónimos,
eliminado las tildes y se han pasado a minúsculas la mayoría de ellas.
Esto incluye transformaciones semánticamente incorrectas, como unificar
las estiquetas coronavirus
, covid
,
covid19
, srascov2
y similares en
COVID-19
, pues, aunque ninguno de los conceptos anteriores
son realmente sinónimos estrictos entre sí, podemos entender que toda
noticia con alguna de esas etiquetas entra en un mismo grupo que
de manera general identificamos con el COVID-19
.
¿Qué vemos aquí?
-
Los temas tecnológicos y el humor fueron el principal
contenido al inicio de Menéame, pero desde el primer día
no han dejado de caer en picado. Si este declive es a lo que
se refieren los usuarios cuando espetan
Menéame ya no es lo que era
entonces hay que darle la razón a cualquiera que lo haya dicho a partir del segundo año de la plataforma. -
Algunos temas van prácticamente de la mano. Prueba a añadir la etiqueta
PP
y sorpréndete al ver con qué otra etiqueta forma una paralela casi exacta. -
La etiqueta
COVID-19
no es la más usada de la historia (aunque va camino de ello) pero es la que tiene el crecimiento más espectacular, prueba a añadirla en la grafica para ver qué pasa.
1.E ¿Cómo se relacionan los temas en Menéame?
Pincha en un nodo para ver que etiquetas aparecen en las mismas noticias y en que porcentaje
(*) Solo se muestran las 80 etiquetas más usadas
¿Qué vemos aquí? Esta se explica sola, pincha en los nodos.
1.G ¿Hay buen rollo en Menéame?
Mostrar datos de
(*) Se han descartado las noticias con un solo voto (pues es el del autor) o autodiscard
sin votos negativos (pues probablemente se trate de un envío erróneo).
Tampoco se contabilizan los votos anónimos, es decir, solo se tienen en cuenta los votos
de usuarios registrados. Tras esto se resta un voto positivo a todas las noticias para
no tener en cuenta el voto del propio autor.
¿Qué vemos aquí?
- Es cierto que el porcentaje de votos negativos ha ido incrementándose con el tiempo y da ganas de interpretarlo como una prueba de que el conflicto en Menéame va en aumento, pero no creo que sea una crecida tan significante (pasamos de un 1.5% en 2013 a un 4% en 2020) como para darle tanta importancia. Además, un mayor porcentaje de votos negativos también podría indicar una mejor moderación.
- Aunque el karma de las noticias ha ido claramente en descenso es muy difícil interpretar este dato porque el algoritmo que calcula el karma ha ido cambiando con el tiempo. No tengo manera de comparar cualitativamente karmas de distintos años.
- Con el karma de los comentarios pasa lo mismo (no se pueden comparar bien) y además no hay un descenso tan acusado.
¿Por qué no estudias aquí la evolución de los
Porque la api no da ese dato
(si me equivoco ponme un issue)
y aunque obtenerlo haciendo scraping
es parcialmente posible (los comentarios causa de
2. Uso de Menéame
2.A ¿Cuándo se usa Menéame?
Calcular usando datos de y mostrando los valores como
¿Qué vemos aquí?
- Tanto el día normal, como el mes normal, como el año normal, nos dicen lo mismo: Menéame se usa principalmente para procrastinar en el trabajo. Todas las curvas descienden en cuanto entramos en el tiempo libre (al salir del horario de oficina, al llegar el fin de semana, al llegar las vacaciones de verano y Navidad, etc).
-
Da igual si usas todos los años para la gráfica o solo años particulares,
el comportamiento siempre ha sido el mismo con solo una excepción:
la gráfica de
año normal
usando datos de 2006, 2007 o 2008. ¿Puede ser que en aquel entonces Meneamé se usara más entre estudiantes y personal de universidades que en el mundo laboral en general? No lo sé.
2.B ¿Cuánto se usa Menéame?
Mostrar cantidad en
MUY IMPORTANTE: Menéame asegura tener casi 500.000 usuarios activos y no hay motivo para pensar que sea mentira, simplemente ellos tienen verdadero acceso a todos los datos y los pueden contabilizarlos mucho mejor que yo, además no se qué unidad temporal usan para definir si un usuario está activo o no (¿un usuario activo es el que ha tenido actividad en la última semana? ¿en el último año?). Así que toma mi gráfica como meramente orientativa donde la tendencia es más significativa que los valores concretos y ajusta la unidad temporal a lo que tú consideras un usuario activo, teniendo muy en cuenta que he tomado las siguientes decisiones:
- Llamo usuario activo a aquel que ha enviado al menos una noticia o ha escrito al menos un comentario o un post en la unidad de tiempo seleccionada. ¡OJO! no hay duda que un usuario que no escribe ni manda noticias pero sí vota debería ser considerado activo, sin embargo el histórico de votaciones por usuario no está disponible y por ello no puedo reflejar este tipo de actividad.
- Aunque es posible saber qué usuarios han sido eliminados, no es posible saber cuándo se dieron de baja, así que se ha tomado como fecha de baja aquella en la que realizaron su último envío, comentario o post.
- Llamo usuario abandonado a aquel que sin estar eliminado lleva más de un año sin mandar una noticia, ni escribir un comentario, ni escribir un post (por eso en el último año siempre va a poner que hay 0 usuarios abandonados). Al igual que con los usuarios eliminados, se toma como fecha de abandono la de su último envío, comentario o post. ¡OJO! Los usuarios previamente mencionados que solo votan pero no escriben ni envían noticias estarán siendo contabilizados erróneamente como usuarios abandonados.
¿Qué vemos aquí?
- Solo los comentarios suben claramente. El resto esta estancado o en descenso, repuntando en momentos especiales como la crisis del COVID-19.
- Como vimos en 1.A, el pico de actividad se dio alrededor de 2012 (en concreto, entre 2011 y 2013).
-
Fijándonos en la grafica
promedio por usuario activo
parece que el hecho que veíamos antes (que la única métrica que crece claramente sean los comentarios) se explica porque la gente que comenta cada vez escribe más comentarios, no porque haya más gente comentando. ¿Puede ser esto un signo de discusiones cada vez más largas o de que la gente se repita más?. -
Llama la atención que los picos de registros de usuarios no producen
un aumento de la actividad tan significativo como cabría esperar.
Eso puede significar que una parte importante de los usuarios que
se registran en un pico lo hacen:
- para realizar actividades que no estoy teniendo en cuenta, por ejemplo votar
- para reemplazar un usuario que previamente eliminaron o abandonaron
3. ¿Cómo se hizo?
Si te interesa saber cómo he sacado los datos de Menéame te recomiendo que vayas directamente al repositorio GitHub y empieces por el fichero README.md