Quelle est la différence entre la cartographie et la réduction dans MapReduce?                    https://www-01.ibm.com/software/data/infosphere/hadoop/mapreduce/


Réponse 1:

Le concept de mapreduce est de diviser et de fusionner. Comme Manuj Garg l'a mentionné avec l'exemple, l'idée est de diviser les données en fonction d'un concept. Dans le cas de fichiers, nous pouvons vouloir diviser les fichiers en fonction du type de fichier et l'archiver. Le découpage se fera donc en cartographie et l'archivage se fera en phase réduite. En termes simples, si nous faisons tout en une seule phase, aucun document ne sera traité à cause d'une contrainte de mémoire. Disons que nous avons 100 documents de 10 types différents, si nous faisons tout en une seule phase, 100 documents seront mis en mémoire. En cas de mapreduce, seulement 10 documents seront introduits dans la mémoire et il fournit également un puissant traitement parallèle. Je vous recommande d'écrire un programme mapreduce simple pour comprendre le concept complet.


Réponse 2:

Supposons que vous ayez 10 sacs pleins de dollars de dénominations différentes et que vous souhaitez compter le nombre total de dollars de chaque dénomination. La méthode traditionnelle consiste à commencer à compter en série et à obtenir le résultat. C'est comme si vous les comptiez tous vous-même en ouvrant un sac à la fois et ainsi de suite.

Dans le monde de mapreduce, vous pouvez appeler vos amis pour vous aider et chacun de vos amis reçoit un sac. chacun d'entre eux commence à compter son propre sac en parallèle et enfin tous ont leur compte séparé pour chaque dénomination. ils vous donnent simplement ces chiffres et vous les agrégez.

Tous vos amis se comportent comme des cartographes ici. tu es le réducteur!