Quelle est la différence entre un data scientist et un statisticien?


Réponse 1:

Sasha Mikheev

Plus précisément, le code qu'ils écrivent n'est jamais conçu pour être utilisé par quelqu'un d'autre qu'eux-mêmes

mais ils bousculent régulièrement leurs analyses en appliquant des techniques aux problèmes sans comprendre les hypothèses derrière ces techniques.

josh_wills: Data Scientist (n.): Personne ...

Variables aléatoires indépendantes et réparties de manière identique

Statistiques non paramétriques


Réponse 2:

Les scientifiques des données comprennent les choses du point de vue des données. Il faut comprendre quelles sont les caractéristiques des données - est-ce rare? a-t-il une certaine structure? pouvons-nous tirer parti d'informations orthogonales provenant d'autres sources de données? Qu'est-ce que les scientifiques du domaine ont à dire sur les propriétés des données? parmi plusieurs autres questions de ce type. L'autre différence étant que les scientifiques des données sont principalement des informaticiens, ils développent des solutions algorithmiques aux problèmes du monde réel, en tenant compte des contraintes de calcul, telles que celles qui pourraient être causées par la taille des données - contenant des exigences d'espace et de temps. Pour ce faire, un data scientist peut avoir besoin de connaître des technologies comme le calcul parallèle qui peuvent l'aider à résoudre ces problèmes. Selon les exigences de calcul de la tâche à accomplir, en particulier dans les applications nécessitant des calculs à la volée, il peut souhaiter effectuer une partie de son traitement sur le cloud - une puissante machine informatique accessible sur le réseau - ce qui apporte dans le problème supplémentaire de ce qu'il faut traiter sur le cloud, tout en gardant à l'esprit que cela nécessiterait l'envoi continu de données sur le réseau, augmentant ainsi le temps nécessaire. Ce n'est que la pointe de l'iceberg. Il existe une pléthore d'autres problèmes, tels que ceux liés au traitement des données brutes, qui, selon l'application, peuvent provenir de diverses sources, des caméras de surveillance du trafic aux capteurs montés sur des satellites qui surveillent les conditions climatiques sur notre planète.

Ce que j'essaie de faire valoir, c'est que même si un scientifique des données a besoin de solides connaissances statistiques, ce n'est pas le seul outil de son arsenal.


Réponse 3:

Un statisticien doit connaître plus de statistiques pour pouvoir porter ce terme lourd. Il ne suffit pas simplement de savoir comment trouver des corrélations, de calculer différents types de régression et de comprendre les distributions de probabilité. La connaissance accrue des statistiques pourrait être arbitrairement complexe. Les deux doivent comprendre les statistiques de base et présenter des résultats significatifs d'une manière visuelle intéressante et informative.

Un data scientist doit être capable de former sa propre hypothèse et de la tester, de A à Z. Il doit comprendre les exigences matérielles et logicielles, et être capable de tout coder également. Il semble que la réduction de carte soit vraiment courante. Au moins dans certains cas, ils doivent devenir administrateurs de serveur et peuvent même exécuter des systèmes distribués.


Réponse 4:

Un statisticien doit connaître plus de statistiques pour pouvoir porter ce terme lourd. Il ne suffit pas simplement de savoir comment trouver des corrélations, de calculer différents types de régression et de comprendre les distributions de probabilité. La connaissance accrue des statistiques pourrait être arbitrairement complexe. Les deux doivent comprendre les statistiques de base et présenter des résultats significatifs d'une manière visuelle intéressante et informative.

Un data scientist doit être capable de former sa propre hypothèse et de la tester, de A à Z. Il doit comprendre les exigences matérielles et logicielles, et être capable de tout coder également. Il semble que la réduction de carte soit vraiment courante. Au moins dans certains cas, ils doivent devenir administrateurs de serveur et peuvent même exécuter des systèmes distribués.