Losange bleu

Article de blog

Je fais mon doctorat en neurosciences computationnelles en Allemagne. J’utilise donc l’apprentissage automatique #MachineLearning. Apprendre à gérer les mégadonnées, #BigData, c’est apprendre l’apprentissage automatique. Sur le long terme, je pense que c’est indispensable à une carrière scientifique en neurosciences et/ou psychologie. Voici les raisons me poussant à cette conclusion:

#1. La crise de reproductibilité (lien wiki): Beaucoup de résultats de recherche en neurosciences et psychologie se sont avérés difficiles à reproduire. Plusieurs choses sont en cause: pas assez de données, data dredging (manipulation des données pour obtenir un résultat significatif, d’ailleurs souvent effectuée involontairement faute de formation adéquate…), modèle statistique utilisé non approprié (e.g., fléau de la grande dimension), etc…

De surcroît, comme dit Maslow: Si le seul outil que vous avez est un marteau, vous tendez à voir tout problème comme un clou. En gros, n’avoir que certains modèles statistiques en tête (la plupart des universités n’offrent que des cours de statistiques classiques, pas adaptées aux big data) et toujours se référer à ces modèles n’est pas synonyme d’explorations scientifiques à grand potentiel.

En résumé: un étudiant qui n’apprend que les statistiques classiques (t-tests, Anova, GLM, etc..) sur de petits échantillons est condamné à reproduire les mêmes erreurs encore et encore.

#2. Prévoir est parfois plus intéressant que de comprendre. Si on considère la recherche scientifique de cette manière:

En gros, on passe d’un état 1 (features) à un état 2 (outputs) suite à un processus (black box). Si on a des données sur l’état 1 et 2, on peut soit essayer de modéliser le processus (c’est à dire essayer de le comprendre), c’est plutôt l’objectif des statistiques classiques, soit chercher à prédire l’état 2, c’est plutôt l’objectif de l’apprentissage automatique. Pour certains problèmes, il est parfois préférable d’obtenir:

En résumé: dans les mégadonnées, les modèles les plus performants sont les modèles de l’apprentissage automatique et dans de plus en plus de domaines, la prédiction est plus intéressante que l’interprétation. Donc savoir gérer et utiliser les mégadonnées, et par là même, l’apprentissage automatique, sera de plus en plus nécessaire. Lien vers un super article de L.Breiman expliquant les deux domaines (classical statistic et statistical learning)

# 3. La science ouverte. Une conscience internationale se développe peu à peu quant à la nécessité de rendre la science ouverte. C’est à dire rendre les données et résultats de la recherche scientifique accessible. Qui dit science ouverte dit partage de données, et qui dit partage de données dit plus de données. D’ailleurs, de nombreuses structures telles que le Human Connectome Project, UK Biobank, etc.. se forment et beaucoup d’offres de doctorat jaillissent concernant l’analyse de ces mégadonnées.

En résumé: les mégadonnées vont devenir une partie conséquente du futur. Ce qui me mène au point 4:

#4. De plus en plus de mégadonnées. Facebook, Amazon, Netflix, beaucoup d’industries, beaucoup de start-ups travaillent sur des big data. Beaucoup d’emplois vont certainement être supprimés pour être remplacés par de l’Intelligence Artificielle. L’IA a besoin de programmeurs. Au sein de l’académie: l’imagerie cérébrale, la génétique, l’étude des questionnaires en psychologie, etc.. Ce sont des mégadonnées. Beaucoup de chercheurs et d’étudiants en neurosciences et psychologie n’ont aucune idée de ce que l’apprentissage automatique représente. En gros, il est fort probable qu’une grande disparité se crée entre l’offre et la demande: beaucoup de données à analyser, peu de personnes qualifiées pour le job.

En résumé: l’académie, c’est aussi la compétition, et un bagage en analyse des mégadonnées, c’est plus qu’un atout!

#5. Un chercheur qui ne comprend pas ses analyses statistiques ne peut pas être en mesure de fournir une interprétation correcte des résultats. Les statisticiens et informaticiens aident à analyser, programmer et comprendre. Toutefois, n’effectuer que l’analyse sans avoir une idée bien précise de la nature des données et inversement, conclure une théorie sans avoir une idée de ce que représente réellement les résultats, c’est foncer droit dans le mur. Le choix d’un modèle est souvent un grand défi et implique de comprendre beaucoup de subtilités pour établir des conclusions généralisables.

En résumé: dans l’idéal, un chercheur devrait *scrupuleusement* suivre (cad comprendre) toutes les étapes de son étude pour avoir une idée bien concrète de ce que représentent ses résultats. Les Big Data font et feront partie intégrante de la recherche donc se former dans les statistiques (classical statistic et statistical learning) me parait indispensable.

En bref, je ne pense pas que savoir gérer les big data soit un big plus, je dirais plutôt que ne pas savoir les gérer va devenir un gros moins.