Feb 11 / Sebastián Garrido de Sierra

?R | #4 - NAs: Guía básica, parte 1

Es inevitable.

Más temprano que tarde, los NAs aparecen y complican nuestra vida al trabajar en R.

A veces están ahí, visibles y campantes, después de importar una base de datos.

Por ejemplo, si copias y ejecutas el siguiente bloque de código:

... deberías ver algo como esto:

Otras veces se esconden en los renglones que no ves, esperando la oportunidad para "contagiar" los resultado de las operación aritméticas que realices o impedirte ajustar un modelo.

Puedes confirmar lo que digo si copias y ejecutas los siguientes pedazos de código:

Ahh... Que especiales y (potencialmente) desquiciantes son los NAs en el mundo de R.

Y a pesar de esto, qué poco nos explican sobre cómo lidiar con ellos.

Al menos ese fue mi caso.

Tardé años, literalmente años, en entender cómo trabajar de forma adecuada con NAs.

Esto no debería ser así, por lo menos no para quienes formamos parte de la comunidad de Data Crunchers 🤓.

Por ello, durante los últimos días me puse a recopilar todos los consejos y recursos que conozco para entender y lidiar de forma productiva con los NAs.

Durante éste y (cuando menos) el siguiente número de ?R te compartiré lo que, por no encontrar un mejor nombre, llamaré la guía básica para trabajar con NAs en R (y no morir en el intento).

A darle.

Dados los retos y complejidades que suelen generarnos los NAs al analizar una base de datos, es inevitable preguntarse por qué existen.

Explicaciones hay muchas. Aquí me concentro en tres.

1) Algunas bases de datos incluyen valores faltantes porque la persona o institución encargada de proporcionar un pedazo de información, se negó a hacerlo.

Por ejemplo, en la tabla que incluí en la sección anterior, los valores faltantes se deben a que las autoridades de San Luis Potosí consideraron que la información solicitada por el INEGI era de carácter reservado, y no se la proporcionaron.

2) También es común que una base de datos incluya valores faltantes porque el instrumento utilizado para medir un fenómeno se descompuso.

Por ejemplo, la siguiente imagen muestra las mediciones de partículas menores a 2.5 micrómetros (PM2.5) en la Zona Metropolitana del Valle de México el 1 de enero de 2025:

En consecuencia, el primer motivo por el cual creo que debería interesarte aprender a lidiar con NAs es entender cómo enfrentar y resolver estos retos comunes.

El segundo motivo es más sutil.

Existen diversas estrategias para lidiar con NAs y no siempre es evidente cuál utilizar en cada caso.

El riesgo entonces es que al elegir el camino equivocado, termines generando un problema más grande que el que intentabas resolver.

Dedicaré el próximo número de ?R a explorar este tema.

Pero para llegar ahí, primero tenemos que hablar de cómo saber si una variable o base de datos tiene NAs.

Así que termino esta semana compartiéndote algunos recursos 👇 para detectar la presencia de valores faltantes y dimensionar la gravedad del problema.

Quiero recibir noticias y promociones

Muchas gracias 🙂

En los próximos minutos recibirás un correo de Sebastián de Data Crunchers.

Si no lo encuentras en la bandeja de entrada, por favor revisa las carpetas de Spam y Social (o equivalentes).

Si copias y ejecutas el código de arriba en R, notarás que is.na() genera un vector de la misma longitud que el vector original (en este caso, Ozone) cuyos valores son TRUE (si el respectivo valor en el vector original es NA) y FALSE (en caso contrario).

Una segunda alternativa útil es summary().

Además de ofrecernos los valores del famoso resumen de cinco números de John Tukey, esta función también calcula el número de valores faltantes en una variable (y la media, de pilón).

?R | #4 - NAs: Guía básica, parte 1

💡 Tips

1) 🤌 ¿QUÉ SON LOS NAs?

2) 😠 ¿POR QUÉ EXISTES, NA?

3) 🤔 ¿POR QUÉ DEBERÍA IMPORTARTE APRENDER A LIDIAR CON NAs?

¿Te gustaría recibir nuestro newsletter cada semana en tu correo?

Compártenos tu info y te lo mandamos 🤓.

⚡️ Recursos

1) 🔍 DETECTANDO NAs CON FUNCIONES DE R BASE

2) 📦 {visdat}

3) 📦 {naniar}

?R | #4 - NAs: Guía básica, parte 1

💡 Tips

1) 🤌 ¿QUÉ SON LOS NAs?

2) 😠 ¿POR QUÉ EXISTES, NA?

3) 🤔 ¿POR QUÉ DEBERÍA IMPORTARTE APRENDER A LIDIAR CON NAs?

¿Te gustaría recibir nuestro newsletter cada semana en tu correo?Compártenos tu info y te lo mandamos 🤓.

⚡️ Recursos

1) 🔍 DETECTANDO NAs CON FUNCIONES DE R BASE

2) 📦 {visdat}

3) 📦 {naniar}

¿Te gustaría recibir nuestro newsletter cada semana en tu correo?

Compártenos tu info y te lo mandamos 🤓.