Quelle est la différence entre un architecte de données, un développeur de base de données, un ingénieur de données et un développeur ETL?


Réponse 1:

Tous sont des désignations et des rôles définis par l'organisation individuelle et de manière traditionnelle. Permettez-moi de répondre au rôle et à la responsabilité traditionnels de ces rôles et à ce qui se passe actuellement:

Développeur ETL - qui écrit le mappage et la transformation des données, le flux de travail et le flux de processus d'un travail ETL commencé principalement dans l'outil comme Informatica, PL / SQL, Datastage, ODI, Ab Initio

Développeur de base de données - qui écrit le SQL, le PL / SQL, les procédures stockées, les déclencheurs pour effectuer un travail spécifique dans la base de données et les scripts shell et exécuter les tâches du planificateur ou du CRON

Architecte de données - qui conçoit le modèle de données, l'architecture et la stratégie de gestion des données pour une organisation; normalement pour tous les outils de gestion des données dans l'industrie

Le terme actuel est l'ingénieur de données - qui est expert en acquisition de données à partir de diverses sources (structurées ou non structurées), différents types de format de données, volumes et vitesse, et de stockage des données dans la plateforme Big Data Platform / Data Lake (plateforme relationnelle ou Hadoop). ou de toute autre manière), effectuer l'intégration des données en utilisant des sources ETL / Open, assurer la qualité des données et la planification de la gestion et du partage des données en temps réel. Cela représente 60 à 70% de l'effort dans une plate-forme analytique organisationnelle.

J'espère que cela efface


Réponse 2:

l'architecte de données conçoit le flux de bout en bout des messages de la source à la destination. quel protocole utiliser, quelles fonctionnalités de sécurité à prendre en compte, tous les NFR comme la haute disponibilité, DR, etc. - l'architecte décide.

développeur de base de données traite de la création de la base de données, des tables, des schémas, etc. ainsi que des restrictions d'accès, de la maintenance, etc.

l'ingénieur de données gère le flux de données de la source à la destination, lorsque les données sont volumineuses. ils utilisent des fonctionnalités informatiques distribuées (par exemple, spark on hadoop) pour gérer l'afflux de mégadonnées ainsi que le nettoyage, la transformation et le stockage dans des fichiers hdfs, des bases de données.

Les développeurs ETL utilisent des outils sophistiqués standard de l'industrie (généralement livrés avec un coût de licence élevé) comme abinitio, datastage pour extraire les données de la source-> transformer les données dans la structure souhaitée-> charger vers une destination spécifique.