Quelle est la différence entre le Big Data et le développeur et administrateur Hadoop?


Réponse 1:

Vous ne pouvez pas comparer le Big Data et Hadoop, car le Big Data est un problème et la solution fournie par Hadoop. Le développeur et l'administrateur Hadoop sont des fichiers Hadoop.

Le Big Data est une énorme collection de données comme son nom l'indique «BIG DATA». Il ne peut pas être traité par des méthodes traditionnelles, car la majeure partie de la génération de données est sous forme non structurée. Ainsi, Hadoop est apparu comme une solution à ce problème.

Étudions donc en détail les mégadonnées et Hadoop, afin de vous faire une idée complète des mégadonnées et de Hadoop.

Selon Gartner: les mégadonnées sont des ressources d'informations volumineuses, rapides et de différentes variétés qui nécessitent une plate-forme innovante pour des informations et une prise de décision améliorées.

Le volume fait référence à l'échelle des données

La vitesse se réfère à l'analyse des données en streaming

La variété se réfère à des formes de données

  • La deuxième question se pose: pourquoi devrions-nous apprendre le Big Data?

Le Big Data est un moyen de résoudre tous les problèmes non résolus liés à la gestion et au traitement des données, une industrie antérieure était utilisée pour vivre avec de tels problèmes. Avec l'analyse de Big Data, vous pouvez déverrouiller des modèles cachés et connaître la vue à 360 degrés des clients et mieux comprendre leurs besoins.

Regardez la vidéo ci-dessous pour une introduction au Big Data.

Si vous souhaitez connaître l'historique des mégadonnées, reportez-vous au lien ci-dessous pour l'historique des mégadonnées

Histoire du Big Data

Avançons maintenant avec Hadoop,

Hadoop est un outil open source d'ASF. HDFS stocke de manière fiable l'énorme volume de données.

Voyons maintenant comment HDFS a fourni la solution

Dans Hadoop, HDFS divise des fichiers énormes en petits morceaux appelés blocs. Il s'agit de la plus petite unité de données d'un système de fichiers. Nous (client et administrateur) n'avons aucun contrôle sur le bloc comme l'emplacement du bloc. Namenode décide de toutes ces choses.

HDFS stocke chaque fichier sous forme de blocs. Cependant, la taille de bloc dans HDFS est très grande. La taille par défaut du bloc HDFS est de 128 Mo que vous pouvez configurer selon vos besoins. Tous les blocs du fichier ont la même taille sauf le dernier bloc, qui peut être de la même taille ou plus petit. Les fichiers sont divisés en blocs de 128 Mo, puis stockés dans le système de fichiers Hadoop. L'application Hadoop est responsable de la distribution du bloc de données sur plusieurs nœuds.

À partir de l'exemple ci-dessus où la taille du fichier est de 518 Mo, supposons que nous utilisons la configuration par défaut de la taille de bloc 128 Mo. Ensuite, 5 blocs sont créés, les quatre premiers blocs seront de 128 Mo, mais le dernier bloc sera de 6 Mo uniquement. D'après l'exemple ci-dessus, il est clair qu'il n'est pas nécessaire que dans HDFS, chaque fichier stocké soit en multiple exact de la taille de bloc configurée 128 Mo, 256 Mo, etc.

Pour plus de détails sur HDFS, reportez-vous au lien ci-dessous:

HDFS - Un guide complet

Passons maintenant au développeur Hadoop et à l'administrateur Hadoop.

Développeur Hadoop

Les responsabilités des emplois de développeur Hadoop sont d'écrire des programmes selon les conceptions du système et doivent avoir une bonne connaissance du codage et de la programmation. La tâche du développeur Hadoop est similaire à celle du développeur de logiciels mais dans le domaine Big Data. Le travail de développeur Hadoop comprend également la compréhension et le travail pour trouver des solutions aux problèmes, la conception et l'architecture ainsi que de solides compétences en documentation.

Administrateur Hadoop

Les responsabilités des tâches d'administration Hadoop sont similaires à celles de l'administrateur système. Les rôles et responsabilités d'administrateur Hadoop comprennent la configuration des clusters Hadoop, la sauvegarde, la récupération et la maintenance de ceux-ci. Une bonne connaissance des systèmes matériels et de l'architecture Hadoop est requise par l'administrateur Hadoop.

Donc, pour en savoir plus de profils de Hadoop, reportez-vous au lien ci-dessous:

Différents domaines dans Hadoop et ses rôles professionnels

J'espère que j'ai répondu à votre requête.


Réponse 2:

Reportez-vous à la description ci-dessous pour comprendre les rôles de développeur et d'administrateur Hadoop.

Développeur Big Data Hadoop:

Un développeur Hadoop est responsable du codage / programmation réel des applications Hadoop. Ce rôle est synonyme de développeur de logiciels ou de développeur d'applications; fait référence au même rôle mais dans le domaine Big Data. Un composant de Hadoop est MapReduce où vous devez écrire des programmes Java. Donc, si vous avez des connaissances de base en Java, cela devrait suffire. Mais, si vous ne connaissez pas Java, mais que vous connaissez tout autre langage de programmation, vous pouvez rapidement vous rattraper.

Compétences requises:

  •  Capacité à écrire des travaux MapReduce Expérience de l'écriture de scripts Pig Latin Expérience pratique dans HiveQL Connaissance des outils de chargement de données comme Flume et Sqoop Connaissance des workflows / planificateurs comme OozieBig Data Hadoop Administrateur:

Un administrateur Hadoop est responsable de la mise en œuvre et de l'administration continue de l'infrastructure Hadoop.Le rôle nécessite une coordination avec l'équipe d'ingénierie système pour proposer et déployer les nouveaux environnements matériels et logiciels requis pour Hadoop et étendre les environnements existants.

Nécessite de travailler avec des équipes de livraison de données pour configurer de nouveaux utilisateurs Hadoop. Cette tâche comprend la configuration de Linux, la configuration des principaux Kerberos et le test de l'accès HDFS, Hive, Pig et MapReduce pour les nouveaux utilisateurs. Maintenance de cluster ainsi que création et suppression de nœuds à l'aide d'outils tels que Ganglia, Nagios, Cloudera Manager Enterprise, Dell Open Manage et d'autres outils.

Compétences requises:

  •  Mise en œuvre et administration continue de l'infrastructure Hadoop. Maintenance de cluster, création et suppression de nœuds à l'aide d'outils tels que Ganglia, Nagios, Cloudera Manager Enterprise, Dell Open Manage et d'autres outils. Gérez et passez en revue les fichiers journaux Hadoop. Gestion et surveillance du système de fichiers. Prise en charge et maintenance de HDFS Configuration des écosystèmes Hadoop comme Pig, Hive, HBase, Oozie etc. Réglage des performances des clusters Hadoop et des routines Hadoop MapReduce

Réponse 3:

Salut Shekhar,

Pour le développeur Hadoop, vous devez écrire du code dans mapreduce ou faire des requêtes et du script latin dans la ruche et le porc respectivement.

Pour l'administrateur, vous devez faire attention aux différents nœuds du serveur Linux et maintenir la tâche mapreduce. Vous devez également entretenir le matériel de base pour exécuter avec succès les nœuds hadoop.


Réponse 4:

Il est important de comprendre que le Big Data et Hadoop ne sont pas exactement la même chose.

Le Big Data est un concept qui ressemble davantage à un catalyseur de transformation commerciale en termes de volume énorme et de variété d'ensembles de données disponibles.

Hadoop est une infrastructure technologique pour stocker, gérer et analyser cette énorme quantité de données.

La différence entre un développeur et un administrateur Hadoop (ou toute autre variante commerciale de Hadoop) est la même que, par exemple, un développeur cloud et un administrateur cloud. Le développeur construirait les applications et les instances requises pour l'infrastructure Big Data et les aspects de gestion dans une organisation. Cela impliquerait de coder et de travailler avec MapReduce, Hive, Sqoop, Oozie, Spark, etc. gestion, optimisation des performances, etc.

Contactez-nous à [email protected] pour plus d'informations.