C R I S T Ó B A L   T O R R E S

Fundamentals of Data Engineering

Published 23 January, 2025

Conceptos útiles para la ingeniería de datos

Libro

El libro corresponde a:

  • Título: Fundamentals of Data Engineering: Plan and Build Robust Data Systems
  • Autores: Joe Reis & Matt Housley
  • Editorial: O’Reilly

Opinión

Este es el primer libro de computación que leo, se volvió mucho más fácil de abordar ya que tengo conocimientos en el área de datos y he estudiado para una certificacion de tipo fundamentals de la nube. Como opinión general es un libro muy útil, si bien estos conocimientos se obtienen gradualmente al trabajar en el área permite centrarlos en los conceptos existentes y asignarles nombres. Si ya posees una certificación fundamentals muy probablemente encontrarás material que ya conoces, también puede suceder si tienes conocimientos de flujos ETL. Aún con estos conocimientos es una lectura útil que no se vuelve para nada tediosa.

Algo en clave en este libro es que posee conceptos que se mantienen vigentes en el año actual (2025) y desde mi opinión se mantendrán vigentes algunos años más.

El libro me gustó y me fué útil. No es necesario recomendarlo para un momento específico ya que puede leer sin conocer los temas que trata o ya conociéndolos, no es una lectura tediosa. El material del libro físico tiene buena calidad y la letra y dibujos se ven con claridad.

5/5

Resumen

A continuación las ideas clave de cada capítulo.

Parte 1 Foundation and Building Blocks

  1. Ingeniería de Datos

Se debe considerar la Ingeniería de Datos como el desarrollo, la implementación y mantención de sistemas y procesos que toman data cruda y la convierten en data de gran calidad con información consistente. Un ingeniero de datos maneja el ciclo de vida desde la obtención de las fuentes hasta servirla para los casos de uso (como analítica o machine learning).

Esta imagen es clave en cómo los pasos posteriores dependen de una buena base, dónde el 80% de un proceso de Machine Learning es el procesamiento y limpieza de los datos. [https://hackernoon.imgix.net/hn-images/17IMev5xslc9FLxr9hHhpFw.png](https://hackernoon.imgix.net/hn-images/17IMev5xslc9FLxr9hHhpFw.png) The Data Science Hierarchiy of Needs (https://oreil.ly/pGg9U)

  1. Ciclo de vida de la Ingeniería de Datos

Generación, Almacenamiento, Ingesta, Transformación y Servir la data [https://hackernoon.imgix.net/hn-images/17IMev5xslc9FLxr9hHhpFw.png](https://hackernoon.imgix.net/hn-images/17IMev5xslc9FLxr9hHhpFw.png)

  1. Diseñando una buena arquitectura de datos

  2. Elijiendo tecnologías a lo largo del ciclo de Ingeniería de Datos

Parte 2 El ciclo de vida de Ingeniería de Datos en profundidad

  1. Generación de datos y in source systems

  2. Almacenamiento

  3. Ingesta

  4. Consultas modelamiento y transformación

  5. Sirviendo datos para analítica, machine learning y ETL en reversa

Parte 3 Seguridad, privacidad y el futuro de la ingeniería de datos.

10 Seguridad y privacidad

11 El futuro de la ingeniería de datos