Feb 20 / Sebastián Garrido de Sierra

?R | #5 - NAs: Guía básica, parte 2

La semana pasada propuse que dedicaría este número de ?R a explorar diversas estrategias para lidiar con los NAs o valores faltantes.

Voy a cumplir, lo prometo, pero lo haré en dos parcialidades.

El motivo es simple y complejo a la vez.

Mientras escribía la primera versión de este texto, me di cuenta que para explicar de mejor forma cuándo y por qué elegir cierto tipo de estrategias para lidiar con NAs, primero tenía que profundizar un poco más sobre los tres grandes tipos de valores faltantes que existen, así como qué los definen/distinguen entre sí.

Así que esta semana abordaré las características de los valores faltantes...

... y la próxima me concentraré en las diferentes alternativas que tenemos para trabajar en R con (o a pesar de) ellos.

Aun con este cambio de planes, en la posdata de este correo👇 comienzo a cumplir lo que propuse hace unos días.

Dicho todo esto, despegamos (Odisea Burbujas dixit).

Cuando esa probabilidad es la misma para todas las observaciones de todas las variables que integran nuestra base de datos, decimos que los valores faltantes son completamente aleatorios o Missing Completely At Random (MCAR) en inglés.

En la práctica, esto significa que los factores que provocaron que uno o más valores falten en una base de datos, no tienen relación ni con las variables que incluye la base, ni con otros factores desconocidos.

¿Cuándo podría ocurrir esto?

Va un ejemplo.

Imagina que tienes una hoja de cálculo y en ella debes construir una base de datos con la información de cinco observaciones (o renglones) para cuatro variables (o columnas).

La primera variable registra el sexo de cada persona. Es la única variable para la cual conoces los valores desde el principio.

En la segunda columna debes registrar la altura de cada persona, en la tercera su edad y en la cuarta el país en el que viven.

Entonces echas los 15 volados y registras la información que logras obtener. Si terminas con uno o más valores faltantes, estos serán completamente aleatorios.

Cuando se trata de lidiar con NAs, éste es el menos malo de los mundos.

Si tu análisis omite este tipo de valores faltantes, no incurrirás en un sesgo sistemático; el impacto se "limitará" a la reducción de la información (que en sí mismo puede ser un problema importante).

Por desgracia, como tantas otras cosas en la vida, si bien este es el tipo de valores faltantes con los que nos gustaría lidiar cotidianamente, es poco probable que los que encontremos en nuestra base de datos sean de este tipo 😢.

Eso nos obliga a preguntarnos qué pasa cuando los valores faltantes sí dependen de una o más variables en la base de datos.

Pasemos a los valores faltantes aleatorios.

Debes construir una base de datos en la que quieres registrar la altura, edad y país de residencia de cinco personas
Al comienzo, sólo conoces el sexo de cada una
Las personas existen y saben su respectivo valor para las otras tres variables
Para conocer cada valor de las tres últimas columnas, debes "echar" un volado

Si después de echar los 15 volados terminas con uno o más valores faltantes, estos serán aleatorios o Missing At Random (MAR) en inglés.

En este caso los valores faltantes no son completamente aleatorios porque están relacionados con una o más de las variables que sí conocemos e integran nuestra base de datos.

Puesto de otra forma, la probabilidad de que falte un valor es la misma dentro de cada grupo definido por la información que observamos (en este ejemplo, si se trata de una mujer o un hombre), pero difiere entre los grupos (mujeres respecto a hombres).

En la práctica, es mucho más probable que nuestra base de datos contenga valores faltantes aleatorios que completamente aleatorios.

Esto explica la enorme variedad de métodos que existen para lidiar los primeros.

Para entender si los valores faltantes de una variable son aleatorios o no, debemos analizar la relación entre la variable "incompleta" y el resto de las variables en nuestra base de datos.

Al hacerlo, puedes explorar si la frecuencia de los valores faltantes en una variable:

O, puesto de otra forma, son valores faltantes que no ocurren de forma completamente aleatoria, y que tampoco están relacionados con una o más de las variables incluidas en la base de datos.

Retomemos el ejemplo de las dos secciones previas una vez más.

A diferencia de los valores faltantes completamente aleatorios y aleatorios, en el mundo de los valores faltantes no aleatorios carecemos de alguna forma para saber qué determina la probabilidad de que podamos conocer o no el valor de una celda.

En este escenario, es probable que nos preguntemos, sin respuesta clara, cosas como:

¿La probabilidad de conocer un valor depende de que se "echen" volados?
Si es así, ¿se usa uno o varios tipos de monedas?
Si son más de una, ¿por qué son más de una y cuáles son las probabilidades de obtener Sol y Águila con cada una de ellas?
Si no son monedas, ¿qué otro método se utiliza (p. ej., tirar dados)?

Quiero recibir noticias y promociones

Muchas gracias 🙂

En los próximos minutos recibirás un correo de Sebastián de Data Crunchers.

Si no lo encuentras en la bandeja de entrada, por favor revisa las carpetas de Spam y Social (o equivalentes).

?R | #5 - NAs: Guía básica, parte 2

💡 Tips

1) VALORES FALTANTES COMPLETAMENTE ALEATORIOS (MCAR)

2) VALORES FALTANTES ALEATORIOS (MAR)

3) VALORES FALTANTES NO ALEATORIOS (MNAR)

¿Te gustaría recibir nuestro newsletter cada semana en tu correo?

Compártenos tu info y te lo mandamos los martes.

⚡️ Recursos

1) RUBIN: EL PADRE DE LOS TRES TIPOS DE VALORES FALTANTES

2) LA BIBLIA DE LOS VALORES FALTANTES

3) EL TASK VIEW DEL CRAN DEDICADO A LOS VALORES FALTANTES

?R | #5 - NAs: Guía básica, parte 2

💡 Tips

1) VALORES FALTANTES COMPLETAMENTE ALEATORIOS (MCAR)

2) VALORES FALTANTES ALEATORIOS (MAR)

3) VALORES FALTANTES NO ALEATORIOS (MNAR)

¿Te gustaría recibir nuestro newsletter cada semana en tu correo?Compártenos tu info y te lo mandamos los martes.

⚡️ Recursos

1) RUBIN: EL PADRE DE LOS TRES TIPOS DE VALORES FALTANTES

2) LA BIBLIA DE LOS VALORES FALTANTES

3) EL TASK VIEW DEL CRAN DEDICADO A LOS VALORES FALTANTES

¿Te gustaría recibir nuestro newsletter cada semana en tu correo?

Compártenos tu info y te lo mandamos los martes.