Comment utiliser l’intelligence artificielle afin d’optimiser les SIG : l’exemple du Machine Learning.


Le Machine Learning, apprentissage automatique, est une sous-catégorie de l’intelligence artificielle. Elle consiste à laisser découvrir des « patterns », qui correspondent à des modèles récurrents, dans les ensembles de données. Ces données peuvent être des chiffres, des mots, des images, des statistiques etc. En décelant ces patterns, les algorithmes apprennent et améliorent leurs performances dans l’exécution d’une tâche spécifique. Il est important de noter que l’apprentissage automatique consiste à résoudre un problème de manière optimale.

L’utilité du Machine Learning est largement reconnue en ingénieurerie, en robotique et dans de nombreux autres domaines, mais son utilisation comme outil pour les SIG reste encore à préciser.

Il existe deux types de machine learning pouvant largement être mobilisés dans les SIG :

  • L’apprentissage supervisé (supervised learning) : consiste simplement à ajuster des données à une fonction pour la prédiction. Par exemple, si vous tracez des millions de points d’échantillonnage dans un graphique, vous pouvez ajuster une ligne pour créer une fonction.
  • L’apprentissage non-supervisé (UNSUPERVISED LEARNING) : reconnaît les modèles utilisés par les données

Dans cet article, je vous présente 3 exemples concrets de mobilisation du Machine Learning pour optimiser l’utilisation des SIG.

  1. Classification des images

Les images satellites génèrent  des données relativement difficiles à analyser de manière automatique : l’identification des objets (routes, bâtiments, végétation etc.) restant une tâche laborieuse à effectuer.

Il est donc possible d’utiliser ce que l’on appelle le Support Vector Machine. Cette technique d’apprentissage automatique prend des données classifiées et examine les extrêmes. Cet outil dessine ensuite une ligne de délimitation de décision basée sur les données appelées « hyperplan ». Les points de données contre lesquels la marge de «l’hyperplan» pousse sont les «vecteurs de support». Les « vecteurs de support » sont ce qui est important car ce sont les points de données les plus proches des classes opposées. Étant donné que ces points sont les seuls pris en compte, tous les autres points d’apprentissage peuvent être ignorés dans le modèle.

 

Bien que cet outil permette une identification de plus en plus précise des objets relevés, la classification restent imparfaites. Au fur et à mesure que les algorithmes obtiennent plus de données d’entraînement, ils finiront par s’améliorer.

2. Segmentation et regroupement d’images avec grâce au K-means

L’algorithme du K-means est une méthode de regroupement des données dans le nombre de groupes représentés par la variable K. Cette méthode d’apprentissage non-supervisée attribue de manière itérative chaque point de données dans l’un de K groupements en fonction de la similarité des caractéristiques. Par exemple, la similarité peut être basée sur les caractéristiques spectrales et l’emplacement.

Dans la classification non supervisée, l’algorithme k-means segmente d’abord l’image pour une analyse plus approfondie. Ensuite, chaque cluster se voit attribuer une classe de couverture du sol.

Cependant, le SIG peut utiliser le clustering d’autres manières uniques. Par exemple, les points de données peuvent représenter la criminalité et vous souhaiterez peut-être regrouper les points chauds et bas de la criminalité.

Alternativement, vous pouvez segmenter en fonction de caractéristiques socio-économiques, sanitaires ou environnementales (comme la pollution).

 

3. Prédiction à l’aide du EBK : Krigeage Bayésien Empirique

L’interpolation par krigeage prédit des valeurs inconnues en fonction du modèle spatial. Il estime les poids sur la base du variogramme. La qualité de la surface estimée se reflète dans la qualité des poids. Plus précisément, vous voulez des pondérations qui donnent une prédiction non biaisée et la plus petite variance.

Le krigeage bayésien empirique (EBK) prédit encore et encore en utilisant une variété de simulations jusqu’à une centaine de fois. Chaque semi-variogramme diffère de l’autre. Au final, il mixe l’ensemble des semi-variogrammes pour une surface finale.

Exemple de surface obtenue grâce à l’EBK

Enfin, il affiche ce qu’il pense être la meilleure solution. Comme une analyse de Monte Carlo, il l’exécute à plusieurs reprises pour vous en arrière-plan. S’il s’agit d’un processus aléatoire, vous laissez le processus aléatoire s’exécuter mille fois. Vous voyez les tendances dans les données résultantes et les utilisez pour justifier votre sélection. C’est pourquoi EBK prédit presque toujours mieux que le krigeage direct.

 

CONCLUSION :

Dans l’ensemble, le SIG utilise l’apprentissage automatique pour la prédiction, la classification et le regroupement. L’IA et le ML sont encore des domaines en pleine croissance, de nombreux frameworks étant encore développés quotidiennement.

 

SOURCES :

Site officiel ESRI : https://www.esrifrance.fr/

ESRI FRANCE, Arcgis et Machine Learning, youtube : https://www.youtube.com/watch?v=VRj3lqYs78c

GIS Geography, The rise of Machine Learning in the use of GIS, november 2022