Quelle est la différence entre Hadoop, Hive et AWS RedShift?


Réponse 1:

Hadoop est un cadre de calcul distribué (par exemple MapReduce) et de stockage (HDFS).

Hive fait partie de l'écosystème hadoop et fournit une interface de type sql à hadoop.

Redshift est un système de base de données propriétaire d'Amazon. Sa fonctionnalité est comparable à Hive au-dessus de Hadoop: mais il manque beaucoup d'options. Bien qu'il semble être beaucoup plus rapide, décrit dans les premiers benchmarks.


Réponse 2:

Il n'est plus vrai de dire que Hadoop n'est pas bon pour SQL. Avec les améliorations spectaculaires de Hive, Impala et Lingual, de plus en plus d'outils plus récents pour accéder aux données dans Hadoop se font via SQL. À mesure que Spark devient plus dominant, des outils comme Hive on Spark et Spark SQL diminuent les avantages de Redshift en termes de performances.


Réponse 3:

Les trois termes appartiennent à la Data Science. Hadoop: Hadoop est un framework qui définit la manière dont les Big Data peuvent être stockées et traitées. Initialement, il ne comportait que deux composants: HDFS (couche de stockage) et MapReduce (couche de traitement), mais maintenant Hadoop est devenu un grand écosystème où il existe de nombreux autres cadres avancés de traitement par lots et en flux comme Spark, Storm, Kafka, etc. Le principal objectif de Hadoop est d'effectuer un traitement de données en utilisant la puissance d'une architecture informatique distribuée.

Hive: Hive est l'outil de type SQL utilisé par les analystes de données pour créer des requêtes simples sur des données stockées dans HDFS. Cet outil a été développé par Facebook. Hive a été introduit pour réduire la quantité d'efforts nécessaires à l'écriture de programmes basés sur Java pour récupérer les données traitées stockées dans HDFS.

AWS RedShift: AWS RedShift est un service cloud sur la plateforme AWS qui aide une organisation à développer un système d'entrepôt de données basé sur le cloud. AWS RedShift peut gérer des pétaoctets de données sans avoir besoin de gérer l'infrastructure, les logiciels ou la plate-forme. Il s'agit d'un PaaS, utile pour l'analyse commerciale des données.