fbpx

Introducción

Todo analista de datos requiere, para trabajar, de datos (¡wow!). El problema es que no siempre son sencillos de obtener. Para algunos analistas resulta cotidiano el trabajar con archivos de texto plano como csv o directamente Excel, pero lo cierto es que la información real de las empresas se almacena en lo que se denominan bases de datos.

Estas bases de datos son, en esencia, enormes  interconexiones entre tablas que se relacionan entre sí. En la enorme mayoría de las empresas este es el paradigma dominante, el modelo relacional. Consta de tener la información compartimentada en distintas tablas de modo que la información ocupe el menor espacio posible, pero que pueda ser recolectada mediante la unión de diversas tablas. Además de este enfoque, también existen los modelos no relacionales, que tienen una lógica distinta.

Dichos datos están almacenados en lo que se denomina un motor de base de datos, que básicamente un software  que están pensado para almacenar y administrar la información. Entre los principales motores de bases de datos relacionales están Oracle, Mysql, postgresql, SQL servert, entre otros. Dichos motores utilizan un lenguaje común para consultar y obtener la información que almacenan, ese lenguaje se denomina SQL.

¿Qué es SQL?

Sus siglas significan Structured Query Lenguage, y tal como lo indica su nombre, es el lenguaje mediante el cual se le realizan consultas a la base de datos. Dicha consulta puede implicar obtener toda la información de una tabla, información filtrada ya sea por fila o columna, la unión de diversas tablas, entre muchas otras posibilidades. También permite generar agregaciones y obtener indicadores a partir de los datos en la propia consulta.

Generalmente, las consultas incluyen:

  1. Una acción a realizar
  2. Con qué lo realizará
  3. A dónde consultará
  4. Filtros

SELECT *

FROM VENTAS

WHERE FECHA > ‘20211231′

En el ejemplo presentado, se solicita seleccionar (comando SELECT) a todas las columnas (comando *) de la tabla VENTAS que sean posteriores (WHERE FECHA >) al 31 de diciembre de 2021. Como puede apreciarse, con pocos comandos se puede alcanzar la información directamente y tratarla con los métodos más cómodos que uno maneje (por ejemplo, Power BI).

Por su simpleza y efectividad, SQL es el lenguaje universal para obtener información  de las bases de datos relacionales. Empresas de punta como Google, Amazon, Facebook, Microsoft, Netflix, Uber, Disney, entre otras, utilizan modelos relacionales para sus bases de datos y por tanto SQL. Además, resulta más fácil de aprender que otros lenguajes, especialmente aquellos funcionales (R) u orientado a objetos (Python).

Y por qué aprenderlo

Para acceder a la información desde una base de datos, antes que nada, se debe saber cómo obtener los datos, y eso se consigue con SQL. En caso de no dominar este lenguaje, se dependerá de otra persona que lo obtenga por el analista, con todos los riesgos que eso conlleva. Si bien la comunicación entre el sector de tecnologías y los analistas debe ser fluida en cualquier proyecto con datos, puede suceder que lo requerido no se plasme en la información consultada por el departamento de TI.

Que el analista domine SQL permite que pueda supervisar la consulta o incluso realizarlas por sus propios medios, lo cual asegura tener una mayor calidad de información. Vale aclarar que para poder realizar una buena consulta a una base de datos, además de SQL se debe conocer el modelado de la información, con colaboración del equipo de TI.

Conectarse directamente a una base de datos permite enormes prestaciones en términos de automatización y consistencia de los datos, en la medida que los motores de bases de datos brindan mucha mayor seguridad en estas cuestiones que los archivos de texto plano o Excel.

Es relativamente común que algunas empresas no hayan alcanzado un nivel de maduración adecuado para comenzar su camino a convertirse en una organización data driven y por lo tanto el área responsable de la gestión de los datos tengan ciertas reticencias a la hora de dar accesos seguros y condiciones favorables para el acceso a los datos internos de la organización.

En caso de que estés en una organización con estas características, te sugerimos que leas el siguiente artículo de CPE: Las 5 excusas más comunes para prohibir el acceso a las Bases de Datos y cómo sobrepasarlas.

En caso de querer información detallada sobre los cursos de SQL de Instituto CPE, completar el siguiente formulario: