Next TechSistemas

Google BigQuery vs Snowflake, comparativa de soluciones Data Warehouse en Cloud

4 Mins de lectura

La nube sigue creciendo y las predicciones indican  un crecimiento importante de soluciones de Data Warehousing en Cloud. Existen muchas herramientas actualmente, pero nos concentraremos en hacer una comparativa de dos de las más famosas: BigQuery y Snowflake.

 

Ilustración 1: Pronóstico para el 2025 por Global Market Insights

Snowflake

Comenzó como una startup fundada por 3 expertos, 2 ex arquitectos de Oracle y el cofundador de Vectorwise (una startup holandesa relacionada a bases de datos). Actualmente es considerada la 2da mejor compañía cloud según Forbes. Ofrecen un servicio único de DWaaS (Data Warehouse as a Service) que puede ser desplegado en cualquiera de los 3 grandes proveedores en la nube (AWS, Azure y Google Cloud Platform).

BigQuery

El Data Warehouse de Google que salió a la luz en noviembre del 2011. El poder detrás de BigQuery se debe al motor de consultas Dremel (que además fue la inspiración para Apache Drill, Apache Impala y Dremio). Una de las principales diferencias de BigQuery con respecto al resto es que es completamente serverless.

Ahora haremos una comparación de varios de los factores más importantes a la hora de escoger un Data Warehouse:

  • Precio
  • Rendimiento y escalabilidad
  • Usabilidad

También comentaremos un poco de cómo usamos estas herramientas en Hiberus Data & Analytics y lo que nos parece que hace únicos a nuestros contendientes.

Precio

En nuestra experiencia y opinión, ambos ofrecen una buena relación de coste-valor a pesar de tener modelos de pago completamente diferentes.

BigQuery

Se resume en dos cosas, almacenamiento y tamaño de los El almacenamiento se divide en activo y a largo plazo. El primero se refiere a tablas o particiones que hayan sido modificadas en los últimos 90 días y cuesta $0,02 por GB y el segundo aplica a lo que no haya sido modificado en los últimos 90 días y cuesta $0,01 por GB. Existen otras tarifas que puedes ver en más detalle aquí. Y en cuanto a las queries, tenemos las bajo demanda y la tarifa fija mensual. La primera tiene un coste de $5 por TB (el primer TB de cada mes es gratis) y la tarifa fija empieza en $10.000 mensuales por 500 ranuras (una ranura es una unidad de procesamiento).

Snowflake

Utilizan un sistema por créditos y tienen varios niveles de cuenta que varían en precio por crédito, pero ofrecen más funcionalidades y mejor compliance de seguridad. Para esta comparación usaremos el nivel más económico con un precio de $2,7 por crédito. Snowflake usa warehouses para procesar las queries y tienen 8 tamaños desde XS hasta 4XL. El XS consume 1 crédito por hora y está conformado por 1 servidor o clúster. El siguiente consume el doble de créditos y tiene el doble de servidores y así sucesivamente.

Solo con esta información es difícil determinar con exactitud cuál es más económico, pero en nuestra experiencia están bastante cerca y depende de muchas variables como la cantidad de datos que se almacenará, la cantidad y frecuencia de las queries, etc.

Rendimiento y escalabilidad

Unas de las pruebas más exhaustivas y famosas que se han hecho entre Data Warehouses por Fivetran, muestran que Snowflake resultó un poco más rápido que BigQuery (10,74 segundos en promedio contra 14,32) pero están muy cerca.

 

 

Ambas soluciones fueron diseñadas para ejecutar queries interactivas en Petabytes de datos en poco tiempo. Snowflake cuenta con distintos tamaños de Warehouses para escalar verticalmente y así acelerar queries complejas con muchos joins y además tiene Warehouses multi clúster para escalar horizontalmente y poder ejecutar más queries en paralelo.

Por otra parte, BigQuery es completamente serverless por lo que puedes olvidarte por completo de cómo escalar ya que Google se encarga de todo. Es tan simple como cargar los datos y empezar a ejecutar queries sin importar si son 100GB de datos o 100TB.

Tanto Snowflake como BigQuery son usadas por muchas empresas de la lista Fortune 500 que manejan cantidades astronómicas de datos y confían en el rendimiento y seguridad de estas tecnologías.

Usabilidad

Podríamos decir con seguridad que ambas herramientas son bastante amigables y fáciles de usar. Las dos se pueden usar desde el navegador y tienen interfaces de usuario intuitivas. Es importante recalcar que BigQuery es serverless por lo suma bastantes puntos en esta categoría, no hay que configurar nada, cargar datos y ejecutar queries.

Ambas herramientas cuentan con herramientas de terminal y conectores para usar con los lenguajes de programación más populares.

Experiencias particulares

Hemos implementado ambas herramientas en nuestros procesos ETL y nuestras experiencias han sido sumamente positivas.

  • Gracias a BigQuery pudimos desarrollar una prueba de concepto en menos de una semana por la nula configuración y velocidad con la que pudimos hacer nuestras primeras pruebas.
  • Con la tecnología de Zero Copy Cloning de Snowflake, podemos hacer snapshots o instantáneas sin duplicar físicamente los datos y sin pagar extra. Los clones en Snowflake son punteros a las micro particiones de las tablas originales.

En conclusión, ambas son excelentes opciones y ofrecen todo lo necesario para tener un Data Warehouse seguro, robusto y escalable. Determinar cuál es la mejor alternativa para su caso de uso dependerá de varios factores aparte de los mencionados y es parte del trabajo que hacemos en Hiberus para ofrecer y recomendar las mejoras alternativas para cada caso de uso específico.

 

Si quieres conocer más de cerca nuestro área de Data &  Analytics de Hiberus, no dudes en contactar con nosotros. ¡Estaremos encantados de ayudarte!

 

 

Avatar
1 posts

Sobre el autor
Data Engineer
Artículos

Líderes en visualización y análisis de datos, Big Data y Machine Learning

Nuestra área Data & Analytics está dedicada al desarrollo de soluciones y proyectos basados en tecnologías de datos.

¿Te interesa?

Artículos relacionados
Next Tech

Adaptación de Scrum para el desarrollo de soluciones de Business Analytics con CRISP-DM

7 Mins de lectura
Scrum es sin lugar a dudas el framework para organización de equipos de trabajo más utilizado del mundo. Sin embargo, en entornos…
Next Tech

Análisis geolingüístico: patrimonio lingüístico con Microsoft Power BI

6 Mins de lectura
“La lengua es en cierto modo la manifestación externa del espíritu de los pueblos.” (Guillermo de Humboldt) Cuando hablamos de la lengua…
Next Tech

3 formas de usar Inteligencia Artificial en Power BI sin escribir código

4 Mins de lectura
“La inteligencia artificial es la capacidad de un sistema para interpretar correctamente datos externos, para aprender de dichos datos y emplear esos…

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *