Segunda sesión de #EntrenamientoExtremo: limpieza de datos
Primero, veamos a nuestro invitado, Eduard, Martín-Borregón, explicar él mismo la estructura de la limpieza de datos.
Revisión de tarea: campo único de ID es RFC Limpieza de datos: unificación de valores para referencia única. Ejercicio:
Descargamos una base de datos de compranet aquí
https://sites.google.com/site/cnetuc/contrataciones
1. Entender que la base de datos es lo primero 2. No saltar de inmediato a Open Refine
1. Filtro 2. Inmovilizar fila superior Atajo: Ctrl y flecha hacia abajo Contar los campos. Filtrar los campos por columna y detectar errores o dedazos Número de la clave UC Examinar la base: un error número almacenado como texto. Concordancia entre las cabeceras, las celdas y los tipos de valor (número, texto, fecha) Hallar un identificador único, un número único en la base, que no se repite en ninguna otra fila. Si no existe un identificador único, se genera Al importar csv, indicarle a la hoja de cálculo que todo es texto. Es importante tener una libreta e ir tomando notas para completar una metodología Ctrl Shift, aprender a usarlas. Lo que da sentido a la base de datos es Funciones 1. =espacios Espacios Al aplicar la fórmula, lo que se hace es copiar e ir a pegar valores. Es una buena práctica copiar los valores y dejar como texto. El objetivo final es sistematizar los nombres (Qué decisiones tomar con los nombres). Elegir un criterio para filtrar, por ejemplo, la creencia de que las empresas tienen más comas que los nombres de particulares. Con ello encontramos Borras fórmulas al copiar y pegar valores , S y filtrar Encontrar, devuelve la posición inicial de una cadena de texto, dentro de otra cadena de texto. 2. =encontrar(",SAe2;1) En la celda anexa, número inicial 1 Encontrar s,a ,s. Extraer Decir que quite un número concreto de caracteres de un número total 3. Extrae(AE15;1;26-1) -1
texto contiguo, empezar BODEGA de LLANTAS LA VIGA. Devolver de 26, lo que haya antes de la coma Aplicar un condicional 4. Si if=(AH15=valor#;) =si(extreae(AH2,1,4)=extrae(ah1:1:4);AH
Open Refine
Uso de Facetas Filtrar Ordenar por name Ordenar por Count Cluster Proveedor Edit cells Comon transforms elegir de la serie Colapsar Extraer









