L'intégration de scikit-learn dans Power BI offre la possibilité d'enrichir les rapports avec des capacités de machine learning avancées. Cette article vise à montrer comment implémenter efficacement une méthode de machine learning dans un rapport Power BI.
Prérequis
- Python installé sur votre machine (avec les librairies pandas et scikit-learn) de préférence dans un environnement Conda
Ce dépôt GitHub reprend l'ensemble des éléments présentés dans cet article.
Avantages et Inconvénients
Avantages
- Accès à des algorithmes puissants**. L'utilisation de scikit-learn offre une large gamme d'algorithmes (régression, classification, NLP, etc.) bien au-delà des fonctions natives de Power BI.
- Flexibilité et personnalisation. Contrairement aux outils intégrés de Power BI, l'utilisation de scikit-learn permet d'ajuster finement les hyperparamètres, d'appliquer des traitements complexes ou encore d'utiliser des pipelines de traitement.
- Intégration transparente avec Python. Power BI permet d'exécuter des scripts Python directement dans les requêtes ou les visuels sans avoir besoin de déployer un modèle externe.
- Visualisation des résultats dans Power BI. Les résultats (cluster ou prédiction) peuvent être exploités dans des Dashboard interactifs.
Inconvénients
- Limitations de performance. Power BI n'est pas optimisé pour le Machine Learning intensif. En effet Python peut être lent sur de gros datasets et ne propose pas de parallélisation native (contrairement à Spark ou Dask)
- Dépendance à Python. Tous les utilisateurs doivent avoir Python installé avec les bonnes librairies et les bonnes versions pour éviter les problèmes de compatibilité.
watch?v=AKaMRSYDWPs