Feb 4 / Sebastián Garrido de Sierra

?R | #3 - Adiós, \xf3, Ã³ & Co. 👋

Buen día colega.

Es martes de ?R 🤓.

La semana pasada me clave duro en el locale: ese conjunto de reglas que permiten que nuestras computadoras y programas se ajusten a las convenciones del idioma, país y cultura que queramos (dentro de ciertos límites).

En el camino, expliqué cómo resolver los primeros dos "problemas" que aparecen en este👇 gif:

Y dejé los dos últimos para esta semana porque su origen y solución es similar: dependen de la codificación de caracteres o encoding que se use al importar un archivo y/o abrir un script de R en RStudio.

De eso trata el número de hoy.

A darle.

La tecnología para codificar caracteres comenzó a cambiar a mediados del siglo XX, gracias a la invención de los sistemas de almacenamiento magnético.

A partir de ese momento, el guardado y procesamiento de caracteres se trasladó progresivamente a medios digitales, utilizando bits y bytes para almacenar cualquier letra o símbolo mediante una combinación única de 0s y 1s.

Éste es el método que perdura hasta hoy.

A pesar del enorme brinco tecnológico que significó esta innovación, las primeras codificaciones digitales fueron diseñadas para representar, almacenar y transmitir los caracteres de lenguajes naturales específicos, (p. ej., coreano, hebreo, inglés), y los símbolos técnicos y científicos de ciertos países (p. ej., Estados Unidos, China).

Como resultado, muchos de estos esquemas de codificación eran incompatibles entre sí, provocando que las computadoras de una región/país interpretaran incorrectamente uno o más de los caracteres registrados por los equipos en otra región/país.

Estos problemas se han reducido considerablemente gracias a la creación de formatos de codificación que incluyen los caracteres de un enorme conjunto de lenguajes naturales y miles de símbolos.

Uno de ellos es el 8-bit Unicode Transformation Format, o UTF-8, un formato de codificación de caracteres que nos permite representar cualquiera de los casi 155 mil caracteres y símbolos definidos por el estándar Unicode, mismo que abarca 168 sistemas de escritura, e incluye miles de jeroglíficos egipcios como estos:

En ambos casos, la aparición de esos caracteres extraños (p. ej., \xf3 o Ã³) se debe a que la configuración de una partecita del locale de la computadora o el programa que generó el archivo (aquella que define el encoding), es diferente a la del equipo o aplicación que intenta leerlo e interpretarlo.

Tomemos como ejemplo el "problema" 3.

Éste surgió después de que usé la función read_csv() del paquete {readr} para importar esta base de datos, misma que fue almacenada por el INEGI en un archivo de formato .csv, y que contiene la lista de posibles causas de mortalidad definidas por la Organización Mundial de la Salud (OMS).

Por default, la función read_csv() asume que los caracteres y símbolos guardados en el archivo que vas a importar fueron codificados con el formato UTF-8. Si esto no es así, como en este caso, R no podrá interpretar correctamente ciertos caracteres especiales (p. ej., letras con acento o diéresis).

En términos generales, la solución consiste en modificar el encoding del programa que estás usando para que sea compatible con la codificación de caracteres utilizada por la persona o institución que generó el archivo en primera instancia.

Cómo llevar esto a la práctica, dependerá del programa que estés usando y/o la tarea que estés realizando.

Si la incompatibilidad de encodings surgió al importar archivos de texto plano a R con una de las funciones de {readr}, como en el "problema" 3, la solución consiste en modificar el valor que tiene por default el argumento locale en la respectiva función.

A continuación verás dos opciones de código:

Quiero recibir noticias y promociones

Muchas gracias 🙂

En los próximos minutos recibirás un correo de Sebastián de Data Crunchers.

Si no lo encuentras en la bandeja de entrada, por favor revisa las carpetas de Spam y Social (o equivalentes).

Arriba expliqué cómo modificar los valores del encoding de R y RStudio para que al importar una base de datos o abrir un archivo de R, estos programas interpreten adecuadamente todos los caracteres incluidos en el archivo.

En ambos casos, el éxito del proceso depende de que sepas qué encoding usó quien creó el archivo.

Y esto no es trivial. Existen decenas de formatos de codificación.

¿Cuál de todos estos debemos pedirle a R o RStudio que use?

Por suerte, el paquete {readr} incluye la función guess_encoding(), misma que nos permite responder esta pregunta probabilísticamente.

Como su nombre lo sugiere, esta función tratará de “adivinar” el formato de codificación que se utilizó al crear el archivo que almacena la base de datos que quieres importar a R.

Ejemplifico el uso de guess_encoding() con la base de datos que generó lo que en varias ocasiones he llamado el "problema" 3.

Supongamos que:

Importé la base de datos que contiene la lista de posibles causas de mortalidad definida por la OMS, usando la función readr::read_csv();
Que R no interpretó correctamente ciertos caracteres; y,
No tengo idea de cuál es el encoding que usó el INEGI al crear este archivo.

En él, R propone dos opciones de formatos de codificación (ISO-8859-1 e ISO-8859-2), e indica el grado de confianza que tiene respecto a que sea uno y otro: 0.71 y 0.25, respectivamente.

Los valores en la columna confidence van de 0 a 1, donde 0 es nula confianza y 1 es confianza absoluta.

Partiendo de esta información, parece una buena apuesta utilizar el encoding ISO-8859-1 (equivalente a latin1 que usé en la sección anterior) para que R entienda correctamente todos los caracteres al importar la base de datos.

La computadora que aparece en el video que te compartí al comienzo de este correo es una Teletype, similar a la que usaron John Chambers, Rick Beker y colegas al desarrollar S, uno de los lenguajes en los que se inspiraron Ross Ihaka y Robert Gentleman para crear R.

Cuenta la leyenda que la flechita de asignación que usamos en R se deriva del teclado de esta computadora (en particular, de la tecla O).

Si alguna vez tenemos el gusto de coincidir en el curso R para mortales te cuento la historia completa.

?R | #3 - Adiós, \xf3, Ã³ & Co. 👋

💡 Tips

1) 🤌 ¿QUÉ ES EL ENCODING?

2) 💔 "NO ERES TÚ... SOY YO"

3) 🛠️ ¿CÓMO RESOLVER ESTOS PROBLEMAS?

¿Te gustaría recibir nuestro newsletter cada semana en tu correo?

Compártenos tu info y te lo mandamos 🤓.

⚡️ Recursos

1) 🔮 "ADIVINA" EL ENCODING DE UN ARCHIVO

2) 💪🏻 EL PODER DE LOCALE

3) ⬅️ SOBRE LA FLECHITA DE ASIGNACIÓN EN R

?R | #3 - Adiós, \xf3, Ã³ & Co. 👋

💡 Tips

1) 🤌 ¿QUÉ ES EL ENCODING?

2) 💔 "NO ERES TÚ... SOY YO"

3) 🛠️ ¿CÓMO RESOLVER ESTOS PROBLEMAS?

¿Te gustaría recibir nuestro newsletter cada semana en tu correo?Compártenos tu info y te lo mandamos 🤓.

⚡️ Recursos

1) 🔮 "ADIVINA" EL ENCODING DE UN ARCHIVO

2) 💪🏻 EL PODER DE LOCALE

3) ⬅️ SOBRE LA FLECHITA DE ASIGNACIÓN EN R

¿Te gustaría recibir nuestro newsletter cada semana en tu correo?

Compártenos tu info y te lo mandamos 🤓.