4a sesión del #EntrenamientoExtremo: análisis de datos y estadística básica.
Primero, escuchemos a Irving Morales, uno de los confundadores de Morlan.mx, explicar él mismo en qué consiste el análisis de datos.
Buscar, visualizar, presentar, sacar historias: el análisis es la cuestión crucial.
Análisis de datos "donde la diferencia entre ser una persona y ser un payaso surge".
El problema: agregados estadísticos simplifican y son incompletos o faltos de contexto, hay que enlodarse, en lugar de eso, muchos buscan el PDF con algunas estadísticas.
Pro tip: Limpias una base muy amplia y completa (como la de pobreza en México) A lo largo de tres años ya tienes una colección y una visión de los datos en el país y sigues usando esas bases.
Procedimiento para el análisis
Modos de interrogatorio de los datos:
Interroga directamente, con hipótesis ya hechas ¿Cuál es el promedio de desaparecidos en el país?
Suavecito, deja que los datos me guíen. Ejemplo: tomar la base de datos y graficarla de todas las maneras posible para ir evaluando patrones, sin hipótesis prefabricadas.
El ideal de análisis de datos está en un punto intermedio entre estos dos.
Las hipótesis ya hechas pueden guiar una investigación, pero la necedad del investigador puede forzar a los datos a cualquier conclusión para complacer a cualquiera. ESTE ES EL MAYOR PELIGRO DEL ANÁLISIS DE DATOS.
"Si torturas los datos lo suficiente, confesarán lo que quieras".
Siempre hay maneras de masajear una base de datos para forzar conclusiones. Es un peligro y una prueba ética para un periodista o investigador entrar con conclusiones y excluir los datos que no confirmen mis conclusiones.
Para un análisis (ético) hay dos caminos:
El objetivo es algo intermedio, entre algo muy numérico y algo muy visual.
Dineros, gastos y presupuestos
Encuesta de gasto en el hogar
Datos de flujo en vialidades
Encuesta de gasto en el hogar
Datos de cultivos: base de datos de SAGARPA, de los dineros de apoyo.
Datos de flujos en vialidades
La contextualización de la base de datos es el primer paso del análisis de datos.
1. Empecemos por graficar
Series de tiempo: simplemente grafica un valor a lo largo del tiempo
Ejercicio de series de tiempo.
Histograma (contar cuántos hay en cada categoría): por complejo que suene un histograma es un conteo, para lograr un conteo es necesario a veces “inventar” categorías, por ejemplo, en una serie de de edades, clasificar en 10-15, 15-30, etc.
El objetivo es comparar categorías y buscar correlaciones
¿Cómo se hace una serie de tiempo?
Hacer una serie de tiempo es colocar una variable en el tiempo.
POr ejemplo, tasa de mortalidad de niños menores de 5 años por enfermedades diarreicas.
En el Catálogo Nacional de Indicadores podemos preguntar
¿Por qué en Chiapas subió tanto y en San Luis Potosí bajó?
De 145 muertes por cada 10 mil a 32
Una posibilidad es ver correlaciones con pobreza.
¿Qué buscamos en una serie de tiempo?
Número de inmigrantes a estados Unidos desde México (se desploma durante la crisis en Estados Unidos)
máximos, mínimos, periodicidades, promedios es lo que buscamos.
Lo más importante es generar categorías: analizar es comparar, se necesitan categorías para comparar.
En una variable se generan categorías (pueden ser inventadas)
Pensar en categorías como una caja, cada registro de mi base de datos y se mete en una caja y cuento.
Máximo. ¿Dónde se concentran los datos?
Dispersión: ¿Qué tan ancho es la distribución?
Distribución: ¿Qué forma tiene la gráfica? ?Es una distribución normal?
Se suman todos los datos y se dividen entre el número total de entradas.
El promedio nos dice cómo se acumulan los datos.
El promedio es peligroso si no se comprende bien.
El promedio se usa usa cuando se habla de valores:
- tiene un valor promedio
- la temperatura promedio
"La personas promedio gana 30 mil" es falso, si se tiene en cuenta que ese promedio puede ser resultado de la suma de 60 mil + 0 / 2, donde no hay ninguna persona promedio que gane 30 mil.
Al hablar de las personas y objetos que tienen ese valor se habla de MEDIANA.
La mediana se calcula ordenando todos los valores de menor a mayor o menor a mayor y luego veo en dónde está el número de datos hacia arriba o hacia abajo en una lista de entradas.
En una lista con números pares, la mediana resulta de promediar los dos valores que están en medio de la lista.
¡¡¡No confundan promedio y mediana!!!
En una lista donde el conteo de los valores resulte ser par, la mediana es el resultado del promedio entre los dos valores de en medio.
¿Cómo se calcula la moda?
Es el dato que se repite más veces. La moda es 15000 porque se repite cuatro veces.
Es otra medida de dónde están concentrados los datos.
¿Cómo se dispersan los datos?
Si calculamos el promedio, o la mediana o la moda es medir qué tan lejos van de ese promedio.
Error promedio: es la medida que señala qué tan lejos están los valores del promedio, en promedio. O sea:
Paso número 1: (aunque rara vez se calcula a mano, lo importante es saber cómo es el procedimiento de cálculo de la dispersión).
Calcular lo normal alrededor de qué? El promedio.
Valor 1 menos el promedio
Valor 2 menos el promedio
Algunos son negativos y otros positivos. Lo elevamos al cuadrado
Lo llamamos errores o desviaciones. ¿Qué tan lejos están del promedio?
Se calcula el promedio del error
Y le sacamos la raíz cuadrara.
Así se calcula la desviación estándar. Qué tan lejos se van los datos del promedio.
¿Por qué es importante? Tenemos la Ciudad de México y Guerrero en una base de datos. En Guerrero se promedia 3 veces lo que se asesina en Ciudad de México.
Lo que llaman volatilidad financiera es simplemente un cálculo de desviación del promedio en el comportamiento de, por ejemplo, el valor de cierta moneda: qué tan lejos está de lo normal.
Los datos tienen categorías
¿Cómo se calcula un porcentaje?
Porcentaje = dato * porcentaje / 100
Números absolutos y números relativos
De un conjunto, cuando divido en subconjuntos, al poner cajas nuevas es diferente la historia.
2 en un conjunto de 3 es muy distinto de 2 en un conjunto de 10.
Dos azules que equivalen a un tercio, contra dos azules que equivalen a mucho menos.
Dos puntos azules en dos conjuntos distintos representan cosas totalmente diferentes.
Comunicar por números absolutos puede ser un error, debe ser con números relativos.
Los datos se hacen comparables, de quién ganó a quién ganó y por cuánto ganó.
Para hacer comparaciones se debe sacar el número de desaparecidos sobre la población en un estado, no el número absoluto de desaparecidos.
Usualmente las tasas se hacen por cada 100 mil habitantes
Cómo vemos si dos variables están correlacionadas?
Población que votó por el PRI y gente que va a la escuela
Por ejemplo, puedo comparar en un municipio la tasa de población económicamente activa contra la tasa de mujeres económicamente activa en el mismo municipio.
En algunos municipios esas dos variables están correlacionadas, los más urbanizados, mientras que en algunos municipios, los menos urbanizados, la tasa de mujeres económicamente activas no sube conforme la tasa de población general económicamente activa. Esa puede ser una investigación.
En algunos municipios, para hombres esas dos variables están correlacionadas pero no para las mujeres.
Para ver la correlación, se debe tomar en cuenta lo siguiente: cada punto es un elemento en la base de datos. Tengo puntos que representena la base de datos.