Data science : programmation en langage R

par ThinkR


Le titulaire de la certification sera capable, dans une démarche de data science menée par son organisation, de créer une fonction en langage R, sous forme de package, en respectant les bonnes pratiques de développement pour permettre son usage par d’autres utilisateurs dans l’environnement R.


📅  5 jours (35 heures)

📚 cl

💶  2 990€

🏅 Data science : programmation en langage R (RS5074)


Pour en savoir + sur le programme ou échanger avec l'organisme de formation c'est par ici 

⬇️



Utilisez votre CPF pour financer cette formation

Cet Organisme de Formation est certifié Qualiopi, vous pouvez également faire financer ce programme par votre entreprise ou par pôle-emploi.

Contactez-nous si vous avez besoin d'aide.



Vous pouvez également nous contacter au 06 30 90 99 06.

Pour qui est fait ce programme

Être utilisateur quotidien ou hebdomadaire de R

  • Analyste qui aspire à réaliser des logiciels programmés en R

  • Savoir compiler un document RMarkdown dans un projet RStudio

  • Avoir un niveau équivalent à la formation "Niveau 1" de Thinkr

Avec ce programme vous pourrez :

  • Factoriser du code pour concevoir des fonctions.

  • Intégrer ses fonctions dans un package R.

  • Documenter des fonctions dans les règles de l’art.

  • Utiliser les outils de debug de fonction.

  • Mettre en place des tests unitaires.

  • Réussir à passer les tests de check du CRAN.

  • Versionner son code avec git.

  • Connaitre les bonnes pratiques de diffusion d’ un package R.

  • Comprendre les principes de base de l’intégration continue.

  • Découvrir la programmation fonctionnelle et encapsuler des données.

L'organisme de formation

ThinkR

ThinkR, c’est avant tout une équipe animée par une passion : R. Férue de données, croyant dur comme fer à la puissance de l’open source, l'équipe s’engage chaque jour pour et avec la communauté des utilisateuRs. Issus d’horizons différents, leurs expeRts savent apporter un regard neuf et unique sur R, et espèrent participer, à leur échelle, à la construction du futur du langage le plus prisé du monde de la data science.

Convaincus que les formations doivent être dispensées par des personnes compétentes, pédagogues et avec une appétence pour la prise de parole en public, leurs formateurs sont avant tout des consultants expérimentés, passionnés, speakers en conférences, et ont une affinité avec la problématique métier de vos données.

Chez ThinkR, pas de Powerpoint poussiéreux vieux de plusieurs années. Ils pratiquent le « dogfooding », autrement dit ils sont les premiers clients de leur contenus de formations. Leurs supports de formations sont rédigés, packagés, versionnés… avec R, bien entendu !

La CEO


Diane Beldame

Data Scientist certifiée, c’est son appétence pour les données et ce qu’on y découvre quand on les triture qui l’a amenée à R. Elle a écrit sa première ligne de R en 2007. Pragmatique quand il s’agit de mettre en oeuvre un produit issu de la donnée, pédagogue quand il s’agit de transmettre ce qu’elle sait de R, engagée quand il s’agit de s’impliquer pour ses équipes, ses clients ou la communauté des utilisateurs de R. C’est elle qui porte les valeurs de bienveillance et d’excellence au sein de l’équipe.

Les instructeurs des programmes

Vincent Guyader

CODEUR FOU, FORMATEUR ET EXPERT LOGICIEL R

Fort de plus 10 ans d’experience, et avec un profil à la fois scientifique et technique, Vincent est un inconditionnel de R. Il a toujours les mains dans le code, que ce soit pour développer des applications, analyser des données ou construire des packages. Quand il ne code pas, il joue avec Docker et administre des serveurs. Relever des challenges très techniques n’est pas incompatible avec pédagogie : il forme à R avec passion des profils d’apprenants très variés.

Colin Fay

DATA SCIENTIST & R HACKER

Quand Colin ne code pas en R, il code en R. Eventuellement, on le trouvera sur Twitter… à parler de R. Ce qu’il préfère c’est mettre les mains dans les entrailles de son langage préféré pour en extraire les trésors enfouis. Démonter, détourner, assembler, améliorer…donnez-lui un challenge technique et il ne lâchera rien avant de lui avoir réglé son compte, de préférence avec élégance, le sourire et sans (trop) pester. Et c’est avec plaisir qu’il partagera la solution au sein de l’équipe ou avec les internets mondiaux.

Sébastien Rochette

MODÉLISATEUR, FORMATEUR R, JOUEUR DE CARTOGRAPHIES

Riche d’un doctorat en écologie marine et d’une expérience à bâtir des outils de data science pour la recherche, Sébastien a désormais mis sa rigueur scientifique au service de nos clients. Avec R bien entendu ! Méticuleux, rigoureux et patient, ses combats s’articulent autour de la lisibilité, la reproductibilité et la documentation des outils. Cette aspiration pour la précision n’est pas incompatible avec une grande créativité, notamment quand il s’agit de détourner des méthodes statistiques et autres outils de leurs usages habituels pour arriver à ses fins. Son truc c’est d’exposer les mécanismes qui lient les données entre elles et d’en extraire la substantifique moelle. Grand consommateur de données spatiales, il aime dessiner des cartes (ou des gaufres) avec R.

Cervan Girard

DATA SCIENTIST SPÉCIALISTE DU JONGLAGE AVEC LES SERVEURS ET DOCKER

Cervan est enthousiaste et motivé lorsqu’il s’agit de retrousser ses manches pour relever de nouveaux défis. Même si cela signifie de s’aventurer dangereusement dans les profondeurs de R, apprendre de nouveaux langages et expérimenter en dehors de sa zone de confort. Il n’en reste pas moins fiable, constructif et efficace lorsqu’il s’agit d’utiliser ses compétences pour former ou développer. Il aime transmettre sa passion et former des apprenants de tous niveaux dans le langage R.

Margot Brard

DATA SCIENTIST - AMOUREUSE DE R - CRÉATRICE DE BELLES DATAVIZ

Dernière recrue de l’équipe, elle contribue avec Diane à faire chuter la dose de testostérone au sein de l’équipe. Riche d’un doctorat en statistique & modélisation pour l’agroalimentaire et d’une expérience comme Data Scientist dans une entreprise privée, elle utilise R au quotidien depuis une dizaine d’années. Dynamique, elle aime être poussée dans ses retranchements pour mener à bien de nouvelles missions challengeantes. Son péché mignon ? Triturer et jouer avec {ggplot2} pour affiner toujours plus ses visualisations de données. Pédagogue, elle aime accompagner les apprenants dans les méandres de R. Son objectif ? Engager les apprenants et améliorer les compétences de ceux qui ne pensaient pas être capable de le faire.

Curriculum du programme

Comprendre la notion de factorisation

  • Comprendre la notion de paramètre
  • Automatiser la génération de rapports Rmarkdown


Concevoir ses propres fonctions

  • Factoriser son code pour le réutiliser
  • Comprendre la notion de portée de variables
  • Respecter les conventions de style
  • Définir des paramètres par défaut
  • Déboguer ses fonctions
  • Manipuler des fichiers et des dossiers


Créer un package R

  • Mettre en package des fonctions simples
  • Utiliser {devtools} et {usethis} pour gérer les dépendances de fonctions ‘complexes’
  • Utiliser {roxygen2 } pour créer la documentation
  • Inclure des données dans un package


Vérifier le bon fonctionnement du programme grâce aux tests unitaires

  • Comprendre et utiliser les tests unitaires
  • Choisir les bons tests


Vérifier la conformité d’un package

  • Auditer son package grâce aux checks du CRAN
  • Généraliser l’audit sur tous les systèmes d’exploitation avec {rhub}
  • Corriger les erreurs de conformité les plus fréquentes


Versionner son code avec git

  • Comprendre le principe de versionnage
  • Intégrer git dans Rstudio
  • Mettre en œuvre les commandes commit, push et pull
  • Restaurer son projet à une version antérieure


Découvrir les principes de l’intégration continue

  • Comprendre les principes et enjeux de l’intégration continue
  • Tester automatiquement son package avec git


Publier et communiquer sur son package

  • Diffuser un package
  • Rédiger les fichiers README, NEWS, CoC, etc.


Découvrir la programmation fonctionnelle

  • Comprendre le principe de fonction pure
  • Itérer avec {purrr}

Qu'en pensent les alumni ?

Nicolas D.

"Parfait, les outils comme les formateurs sont très pro et pédagogues"

Stéphane B.

"Bonne formation, claire et efficace. Très bonne plateforme pour formation à distance."

Jérémy C.

"Formation claire et intéressante. Du contenu en bonus à explorer."

Sylvain G.

"Formation de pointe, très pro mais formateur néanmoins accessible et pédagogue."

Benjamin L.

"Une expérience très agréable pour une formation de qualité. Bravo à l'équipe et merci à Sébastien."

En classe virtuelle

Un apprentissage en ligne avec une classe motivée

Depuis Mars 2020, toutes les formations sont en distanciel synchrone au sein de groupes avec un effectif limité à 7 personnes. Les apprenants sont convoqués sur une plage horaire d’une demi-journée et sont équipés d’un couple lien visioconférence/identifiants pour la plateforme d’apprentissage.

Une séance peut alors se dérouler sous deux formes :

- les « cours » : le formateur dispense le contenu au moyen de supports de formation en alternance avec des exercices pratiques et des quizz en salle pour s’assurer de la progression régulière de tout le groupe. Le formateur mobilise également des techniques comme les travaux en sous-groupes pour susciter les conditions d’un apprentissage entre pairs.

- les travaux dirigés en autonomie : un tutoriel en ligne alternant exposés et exercices pratiques/QCM/puzzles à résoudre est à réaliser dans le temps imparti, le formateur reste disponible pour des questions même s’il peut accompagner simultanément plusieurs groupes de niveau différents.

L’espace apprenant et tout le matériel pédagogique utilisé reste bien évidemment accessible entre deux séances encadrées et jusqu’à un mois après la fin de la formation.

ThinkR a la ferme conviction qu’un langage de programmation s’apprend comme une langue, en la pratiquant, et que les conditions de cette pratique doivent ressembler trait pour trait à la situation professionnelle une fois au poste. C’est pour cette raison que les apprentissages se font dans RStudio, l’environnement de développement intégré majoritairement utilisé en contexte professionnel dès lors qu’il s’agit d’opérer R pour des problématiques de data science.

FAQ

  • Qu'est-ce que R ?

    R est un langage de programmation. C’est à dire que grâce à une « langue » commune, on échange avec R des instructions et il retourne les réponses à la manière d’ un dialogue. La dimension « programmation » prends corps dans la possibilité de définir soi-même de nouvelles instructions, enrichissant ainsi le vocabulaire et donc les fonctionnalités. R un des langages phare de data science, ou sciences des données. En effet nombre de ses fonctionnalités sont liées à la manipulation et l’exploitation statistique des données. Il peut aisément collecter, manipuler, agréger, transformer, modéliser, visualiser et communiquer autour de la donnée. C’est un langage mature utilisé par plus de 2 millions d’utilisateurs dans le monde. Il est né en 1992 en Nouvelle-Zélande dans les laboratoires de l’université d’Auckland à l’initiative de Ross Ihaka et Robert Gentleman. L’objectif des créateurs est d’implémenter un langage qui facilite l’enseignement des statistiques et l’analyse de données, un moyen simple de calculer une moyenne dans un tableau de données et d’implémenter un modèle statistique prédictif. Par ailleurs, les ordinateurs de la faculté où ils enseignent sont équipés de Mac et afin d’opérer sur ces ordinateurs, ce nouveau langage sera multi-plateforme : il pourra être exécuté sur Windows, Linux ou Mac. A l’époque, peu de logiciels opèrent sur plusieurs systèmes d’exploitation, c’est un atout non négligeable. Plutôt que de proposer un énième logiciel de statistiques payant, ils décident d’en partager le code source. Ce qui signifie que tout un chacun est libre de modifier le code source pour bâtir ses propres outils et fonctionnalités. Les statistiques n’ont pas autant bonne presse à ce moment là que la data science aujourd’hui mais du fait de sa gratuité et de son efficacité, la recherche académique se sert de R pour enseigner et… faire de la recherche. En effet, comme le logiciel est libre, une communauté de chercheur développe de nouvelles fonctionnalités pour améliorer le langage. Ils mettent à disposition le fruit de leurs travaux de recherche sous forme de packages, eux aussi libre de droits. Tout nouvel utilisateur peut alors bénéficier des développements que les utilisateurs précédents ont mis à disposition, avant de lui-même éventuellement contribuer. En 2019, la bibliothèque où sont déposés les contributions volontaires affiche 15 000 packages différents. En somme, R est un langage de programmation open source, dédié à l’analyse de données, riche d’une communauté d’utilisateurs qui contribue à son amélioration continue.

  • Qui utilise R de nos jours ?

    Beaucoup de personnes ! Les utilisateurs de R en entreprise exercent les métiers de Data Scientist, Data Analyst, Business Analyst, Développeur R ou Intégrateur R…. et travaillent dans tous les secteurs d’activité. Leur quotidien consiste à manipuler de la donnée pour construire des produits ou éclairer des décisions stratégiques. Mais dans les profils et les métiers que Thinkr accompagnetant en formation qu’en consultance, on trouve également des urbanistes, des médecins, des artistes, des archéologues, des géographes, des experts comptables, etc. Bien sûr, les utilisateurs de R en recherche sont toujours les chercheurs et assistants de recherche en sciences statistiques, mathématiques, physique, biologie… mais aussi maintenant en sociologie, géographie, archéologie ! Ils recoivent aussi souvent des demandes de développeur ou programmeur SAS qui souhaitent monter en compétences sur R du fait de la migration de SAS vers R de leur entreprise.

  • Pourquoi utiliser R ?

    Aujourd’hui, la donnée est partout et facilement disponible. La comprendre et l’analyser pour s’en servir pour éclairer des décisions, proposer de nouveaux services, rationnaliser des processus ou comprendre des mécanismes est nécessaire et indispensable dans la transition numérique à l’oeuvre. La data science est le levier par lequel les entreprises de toute taille entament le travail de valorisation de leurs données. R est un candidat de choix comme outil d’innovation pour la data science car il est : - gratuit - open source - polyvalent - innovant - sa communauté d’utilisateurs est très (ré)active

  • Pourquoi se former à R ?

    Parce que votre temps est précieux… Il est vrai que les ressources en ligne ne manquent pas et toutes les formes d’apprentissage du langage sont possibles. Mais l’apprentissage auto-didacte a quelques limites et comporte plusieurs risques : sous-estimer le temps à dédier à se former, ne pas trouver la motivation de s’y mettre, définir des objectifs disproportionnés et ne pas les atteindre, avoir des difficultés à transposer les contenus à ses propres problématiques métier… La formation avec un organisme de formation spécialisé, c'est la garantie de : - profiter de l’expertise des consultants/formateurs tant techniquement que pédagogiquement - pouvoir adapter le programme de formation à ses besoins métier, demander au formateur d’improviser - avoir à disposition des contenus mis à jour régulièrement sur la base d’une veille technique journalière - bénéficier d’une politique qualité formalisée La montée en compétences est rapide, efficiente et efficace, sur un temps dédié avec des objectifs fixés ensemble sur des problématiques qui vous concernent.