Analyse statistique de données avec le langage R

par ThinkR


Cette certification est centrée sur les concepts du {tidyverse}, une approche moderne et particulièrement accessible aux débutants de la programmation en R couvrant la plupart des besoins en data science.

Le titulaire de la certification sera capable, dans une démarche de data science, d’intégrer et de traiter des données, et de produire un rapport en utilisant de manière appropriée le langage de programmation R. Le titulaire de la certification sera capable de mettre en place un processus de traitement des données sous R qui soit reproductible avec différents type de jeux de données.


📅  5 jours (35 heures)

📚  classe virtuelle

💶  2 990€

🏅 Analyse statistique de données avec le langage R (RS5073)


Pour en savoir + sur le programme ou échanger avec l'organisme de formation c'est par ici 

⬇️



Utilisez votre CPF pour financer cette formation

Cet Organisme de Formation est certifié Qualiopi, vous pouvez également faire financer ce programme par votre entreprise ou par pôle-emploi.

Contactez-nous si vous avez besoin d'aide.



Vous pouvez également nous contacter au 06 30 90 99 06.

Pour qui est fait ce programme

  • Utilisateurs d’Excel pour l’analyse de données

  • Utilisateurs de logiciels de statistiques propriétaires

  • Utilisateur de R nécessitant une remise à niveau

Avec ce programme vous pourrez :

  • Connaître et comprendre l’environnement R.

  • Importer et exporter des données.

  • Concevoir des opérations de manipulation de données (filtrer, trier, agréger, transformer) comme un flux de traitement organisé.

  • Dessiner le graphique approprié à la représentation souhaitée.

  • Manipuler les dates.

  • Manipuler les chaines de caractères.

  • Maîtriser le paramétrage de rapports mis en forme d’analyse de données.

L'organisme de formation

ThinkR

ThinkR, c’est avant tout une équipe animée par une passion : R. Férue de données, croyant dur comme fer à la puissance de l’open source, l'équipe s’engage chaque jour pour et avec la communauté des utilisateuRs. Issus d’horizons différents, leurs expeRts savent apporter un regard neuf et unique sur R, et espèrent participer, à leur échelle, à la construction du futur du langage le plus prisé du monde de la data science.

Convaincus que les formations doivent être dispensées par des personnes compétentes, pédagogues et avec une appétence pour la prise de parole en public, leurs formateurs sont avant tout des consultants expérimentés, passionnés, speakers en conférences, et ont une affinité avec la problématique métier de vos données.

Chez ThinkR, pas de Powerpoint poussiéreux vieux de plusieurs années. Ils pratiquent le « dogfooding », autrement dit ils sont les premiers clients de leur contenus de formations. Leurs supports de formations sont rédigés, packagés, versionnés… avec R, bien entendu !

La CEO


Diane Beldame

Data Scientist certifiée, c’est son appétence pour les données et ce qu’on y découvre quand on les triture qui l’a amenée à R. Elle a écrit sa première ligne de R en 2007. Pragmatique quand il s’agit de mettre en oeuvre un produit issu de la donnée, pédagogue quand il s’agit de transmettre ce qu’elle sait de R, engagée quand il s’agit de s’impliquer pour ses équipes, ses clients ou la communauté des utilisateurs de R. C’est elle qui porte les valeurs de bienveillance et d’excellence au sein de l’équipe.aul).

Les instructeurs des programmes

Vincent Guyader

CODEUR FOU, FORMATEUR ET EXPERT LOGICIEL R

Fort de plus 10 ans d’experience, et avec un profil à la fois scientifique et technique, Vincent est un inconditionnel de R. Il a toujours les mains dans le code, que ce soit pour développer des applications, analyser des données ou construire des packages. Quand il ne code pas, il joue avec Docker et administre des serveurs. Relever des challenges très techniques n’est pas incompatible avec pédagogie : il forme à R avec passion des profils d’apprenants très variés.

Colin Fay

DATA SCIENTIST & R HACKER

Quand Colin ne code pas en R, il code en R. Eventuellement, on le trouvera sur Twitter… à parler de R. Ce qu’il préfère c’est mettre les mains dans les entrailles de son langage préféré pour en extraire les trésors enfouis. Démonter, détourner, assembler, améliorer…donnez-lui un challenge technique et il ne lâchera rien avant de lui avoir réglé son compte, de préférence avec élégance, le sourire et sans (trop) pester. Et c’est avec plaisir qu’il partagera la solution au sein de l’équipe ou avec les internets mondiaux.

Sébastien Rochette

MODÉLISATEUR, FORMATEUR R, JOUEUR DE CARTOGRAPHIES

Riche d’un doctorat en écologie marine et d’une expérience à bâtir des outils de data science pour la recherche, Sébastien a désormais mis sa rigueur scientifique au service de nos clients. Avec R bien entendu ! Méticuleux, rigoureux et patient, ses combats s’articulent autour de la lisibilité, la reproductibilité et la documentation des outils. Cette aspiration pour la précision n’est pas incompatible avec une grande créativité, notamment quand il s’agit de détourner des méthodes statistiques et autres outils de leurs usages habituels pour arriver à ses fins. Son truc c’est d’exposer les mécanismes qui lient les données entre elles et d’en extraire la substantifique moelle. Grand consommateur de données spatiales, il aime dessiner des cartes (ou des gaufres) avec R.

Cervan Girard

DATA SCIENTIST SPÉCIALISTE DU JONGLAGE AVEC LES SERVEURS ET DOCKER

Cervan est enthousiaste et motivé lorsqu’il s’agit de retrousser ses manches pour relever de nouveaux défis. Même si cela signifie de s’aventurer dangereusement dans les profondeurs de R, apprendre de nouveaux langages et expérimenter en dehors de sa zone de confort. Il n’en reste pas moins fiable, constructif et efficace lorsqu’il s’agit d’utiliser ses compétences pour former ou développer. Il aime transmettre sa passion et former des apprenants de tous niveaux dans le langage R.

Margot Brard

DATA SCIENTIST - AMOUREUSE DE R - CRÉATRICE DE BELLES DATAVIZ

Dernière recrue de l’équipe, elle contribue avec Diane à faire chuter la dose de testostérone au sein de l’équipe. Riche d’un doctorat en statistique & modélisation pour l’agroalimentaire et d’une expérience comme Data Scientist dans une entreprise privée, elle utilise R au quotidien depuis une dizaine d’années. Dynamique, elle aime être poussée dans ses retranchements pour mener à bien de nouvelles missions challengeantes. Son péché mignon ? Triturer et jouer avec {ggplot2} pour affiner toujours plus ses visualisations de données. Pédagogue, elle aime accompagner les apprenants dans les méandres de R. Son objectif ? Engager les apprenants et améliorer les compétences de ceux qui ne pensaient pas être capable de le faire.

Curriculum du programme

Présentation de R, premiers pas dans la console

  • Démystifier la console, une «super-calculatrice» qui exécute du code
  • Prendre ses marques dans RStudio, créer son premier projet
  • Comprendre ce qu’est un vecteur
  • Se familiariser avec les packages et le moyen de les utiliser
  • Utiliser Rmarkdown pour la prise de notes


Visualiser des données

  • Construire, modifier et exporter des graphiques avec le package {ggplot2}


Importer des données

  • Importer des fichiers plats de type .csv et .xls avec les packages {readr} et {readxl}
  • Vérifier la qualité de l’import
  • Typer les données (déterminer si chaque colonne est une date, une valeur numérique, un texte…)


Manipuler et nettoyer des données

  • Se familiariser avec les packages {dplyr} et {tidyr}
  • Concevoir les opérations de manipulation de données comme un flux de traitement organisé :
    • Introduction de l’opérateur %>%
    • Manipuler, transformer et résumer des données avec {dplyr}
    • Remodeler les données sous un format adéquat avec {tidyr}


Produire des rapports d’analyse

  • Appréhender le concept de recherche reproductible
  • Compiler des rapports commentés imbriqués de code R avec Rmarkdown.
  • Savoir exporter en docx, en html et en pdf
  • Mettre en forme des tableau avec {DT}


Décrire des données

  • Calculer des paramètres descriptifs pertinents pour décrire des données (effectifs, moyennes, médianes, écart-types…)
  • Utiliser le package {skimr}


Autonomisation

  • Approfondir les connaissances sur les packages
  • Exporter des données
  • Savoir comment trouver de l’aide face à un problème rencontré sur R
  • Paramétrer finement les rapports d’analyse réalisés avec Rmarkdown


Réaliser des jointures de données

  • Réaliser une jointure simple
  • Réaliser une jointure complexe


Gérer des dates

  • Formater, manipuler et opérer des calculs sur des dates avec le package {lubridate}
  • Comprendre, appréhender et utiliser les formats dates dans R


Gérer les chaînes de caractères

  • Manipuler les chaînes de caractères avec le package {stringr}


Gérer la présence de données manquantes dans les données

Qu'en pensent les alumni ?

Nicolas D.

"Parfait, les outils comme les formateurs sont très pro et pédagogues"

Stéphane B.

"Bonne formation, claire et efficace. Très bonne plateforme pour formation à distance."

Jérémy C.

"Formation claire et intéressante. Du contenu en bonus à explorer."

Sylvain G.

"Formation de pointe, très pro mais formateur néanmoins accessible et pédagogue."

Benjamin L.

"Une expérience très agréable pour une formation de qualité. Bravo à l'équipe et merci à Sébastien."

En classe virtuelle

Un apprentissage en ligne avec une classe motivée

Depuis Mars 2020, toutes les formations sont en distanciel synchrone au sein de groupes avec un effectif limité à 7 personnes. Les apprenants sont convoqués sur une plage horaire d’une demi-journée et sont équipés d’un couple lien visioconférence/identifiants pour la plateforme d’apprentissage.

Une séance peut alors se dérouler sous deux formes :

- les « cours » : le formateur dispense le contenu au moyen de supports de formation en alternance avec des exercices pratiques et des quizz en salle pour s’assurer de la progression régulière de tout le groupe. Le formateur mobilise également des techniques comme les travaux en sous-groupes pour susciter les conditions d’un apprentissage entre pairs.

- les travaux dirigés en autonomie : un tutoriel en ligne alternant exposés et exercices pratiques/QCM/puzzles à résoudre est à réaliser dans le temps imparti, le formateur reste disponible pour des questions même s’il peut accompagner simultanément plusieurs groupes de niveau différents.

L’espace apprenant et tout le matériel pédagogique utilisé reste bien évidemment accessible entre deux séances encadrées et jusqu’à un mois après la fin de la formation.

ThinkR a la ferme conviction qu’un langage de programmation s’apprend comme une langue, en la pratiquant, et que les conditions de cette pratique doivent ressembler trait pour trait à la situation professionnelle une fois au poste. C’est pour cette raison que les apprentissages se font dans RStudio, l’environnement de développement intégré majoritairement utilisé en contexte professionnel dès lors qu’il s’agit d’opérer R pour des problématiques de data science.

FAQ

  • Qu'est-ce que R ?

    R est un langage de programmation. C’est à dire que grâce à une « langue » commune, on échange avec R des instructions et il retourne les réponses à la manière d’ un dialogue. La dimension « programmation » prends corps dans la possibilité de définir soi-même de nouvelles instructions, enrichissant ainsi le vocabulaire et donc les fonctionnalités. R un des langages phare de data science, ou sciences des données. En effet nombre de ses fonctionnalités sont liées à la manipulation et l’exploitation statistique des données. Il peut aisément collecter, manipuler, agréger, transformer, modéliser, visualiser et communiquer autour de la donnée. C’est un langage mature utilisé par plus de 2 millions d’utilisateurs dans le monde. Il est né en 1992 en Nouvelle-Zélande dans les laboratoires de l’université d’Auckland à l’initiative de Ross Ihaka et Robert Gentleman. L’objectif des créateurs est d’implémenter un langage qui facilite l’enseignement des statistiques et l’analyse de données, un moyen simple de calculer une moyenne dans un tableau de données et d’implémenter un modèle statistique prédictif. Par ailleurs, les ordinateurs de la faculté où ils enseignent sont équipés de Mac et afin d’opérer sur ces ordinateurs, ce nouveau langage sera multi-plateforme : il pourra être exécuté sur Windows, Linux ou Mac. A l’époque, peu de logiciels opèrent sur plusieurs systèmes d’exploitation, c’est un atout non négligeable. Plutôt que de proposer un énième logiciel de statistiques payant, ils décident d’en partager le code source. Ce qui signifie que tout un chacun est libre de modifier le code source pour bâtir ses propres outils et fonctionnalités. Les statistiques n’ont pas autant bonne presse à ce moment là que la data science aujourd’hui mais du fait de sa gratuité et de son efficacité, la recherche académique se sert de R pour enseigner et… faire de la recherche. En effet, comme le logiciel est libre, une communauté de chercheur développe de nouvelles fonctionnalités pour améliorer le langage. Ils mettent à disposition le fruit de leurs travaux de recherche sous forme de packages, eux aussi libre de droits. Tout nouvel utilisateur peut alors bénéficier des développements que les utilisateurs précédents ont mis à disposition, avant de lui-même éventuellement contribuer. En 2019, la bibliothèque où sont déposés les contributions volontaires affiche 15 000 packages différents. En somme, R est un langage de programmation open source, dédié à l’analyse de données, riche d’une communauté d’utilisateurs qui contribue à son amélioration continue.

  • Qui utilise R de nos jours ?

    Beaucoup de personnes ! Les utilisateurs de R en entreprise exercent les métiers de Data Scientist, Data Analyst, Business Analyst, Développeur R ou Intégrateur R…. et travaillent dans tous les secteurs d’activité. Leur quotidien consiste à manipuler de la donnée pour construire des produits ou éclairer des décisions stratégiques. Mais dans les profils et les métiers que Thinkr accompagnetant en formation qu’en consultance, on trouve également des urbanistes, des médecins, des artistes, des archéologues, des géographes, des experts comptables, etc. Bien sûr, les utilisateurs de R en recherche sont toujours les chercheurs et assistants de recherche en sciences statistiques, mathématiques, physique, biologie… mais aussi maintenant en sociologie, géographie, archéologie ! Ils recoivent aussi souvent des demandes de développeur ou programmeur SAS qui souhaitent monter en compétences sur R du fait de la migration de SAS vers R de leur entreprise.

  • Pourquoi utiliser R ?

    Aujourd’hui, la donnée est partout et facilement disponible. La comprendre et l’analyser pour s’en servir pour éclairer des décisions, proposer de nouveaux services, rationnaliser des processus ou comprendre des mécanismes est nécessaire et indispensable dans la transition numérique à l’oeuvre. La data science est le levier par lequel les entreprises de toute taille entament le travail de valorisation de leurs données. R est un candidat de choix comme outil d’innovation pour la data science car il est : - gratuit - open source - polyvalent - innovant - sa communauté d’utilisateurs est très (ré)active

  • Pourquoi se former à R ?

    Parce que votre temps est précieux… Il est vrai que les ressources en ligne ne manquent pas et toutes les formes d’apprentissage du langage sont possibles. Mais l’apprentissage auto-didacte a quelques limites et comporte plusieurs risques : sous-estimer le temps à dédier à se former, ne pas trouver la motivation de s’y mettre, définir des objectifs disproportionnés et ne pas les atteindre, avoir des difficultés à transposer les contenus à ses propres problématiques métier… La formation avec un organisme de formation spécialisé, c'est la garantie de : - profiter de l’expertise des consultants/formateurs tant techniquement que pédagogiquement - pouvoir adapter le programme de formation à ses besoins métier, demander au formateur d’improviser - avoir à disposition des contenus mis à jour régulièrement sur la base d’une veille technique journalière - bénéficier d’une politique qualité formalisée La montée en compétences est rapide, efficiente et efficace, sur un temps dédié avec des objectifs fixés ensemble sur des problématiques qui vous concernent.