Le potentiel des données DVF+ mises en open-data pour l’étude spatiale des marchés immobiliers


Les données « Demande de Valeur Foncière » (DVF), et leurs dérivés que sont les données DVF+ et DV3F, sont aujourd’hui au cœur de la plupart des observatoires fonciers territoriaux. Jusque-là réservées à l’usage exclusif des collectivités et des institutions, les données DVF et DVF+ ont fait l’objet d’une mise en « open-data » le 24 avril 2019 sur les sites data.gouv.fr et etalab.gouv.fr. L’open-data, que l’on pourrait traduire par « la mise à disposition publique de données », est un processus promut depuis début 2000 par l’Union Européenne à des fins de transparence d’une part et surtout à des fins commerciales d’autre part. Cette promotion de l’open-data se fait au nom de la concurrence libre et non faussée qui nécessite une lutte contre l’asymétrie d’information entre les acteurs économiques. Gérald Darmanin, alors ministre de l’Économie, l’illustre bien en soutenant le 24 avril 2019 que « Il est tout à fait normal de demander des comptes à l’Etat et à ce ministère. Cette ouverture en opendata permettra aux professionnels et aux citoyens de mieux connaître la valeur des biens immobiliers. »

Dans les faits, la donnée DVF, même publique, est très difficile à lire pour qui n’est pas initié. Son ouverture s’adresse donc en priorité aux acteurs économiques comme les bureaux d’études et surtout les investisseurs et les promoteurs immobiliers.

 

Une donnée géolocalisée d’origine fiscale

 

 

Les données DVF sont produites à partir des données immobilières produites par les actes des notaires et sont compilées par la Direction Générale des Finances Publiques (DGFiP) qui les utilise à des fins de prélèvement de l’impôt. L’autre caractéristique de cette donnée est qu’elle comporte des données du cadastre via l’identifiant parcellaire, ce qui en fait une donnée géolocalisée. Cette composition dote les données DVF d’éléments de géolocalisation à la parcelle près, en faisant une mine d’or pour qui souhaite étudier les dynamiques des marchés immobiliers sur un territoire donné à une période donnée. Étant une donnée fiscale, elle ne renseigne que les informations nécessaires au prélèvement de l’impôt, produisant des biais dans la donnée, notamment lorsqu’une information fiscale vient à disparaître comme c’est le cas en ce moment avec la suppression programmée de la taxe d’habitation qui donne de nombreuses informations sur les locaux. Le principal biais de ces données est qu’elles sont pour l’essentiel déclarative et par conséquent dépendent de la bonne foi des propriétaires déclarants. Il n’est donc par si rare qu’une dépendance, voire quelques mètres carrés habitables, ne figurent pas dans les données.

 

Parmi les données mises en open-data, les données DVF+ produites par le CEREMA est particulièrement intéressante car elle rend lisible une donnée DVF brute difficile à exploiter sans un traitement très fastidieux sur la métadonnée pour la rendre la plus fiable et exploitable possible. La donnée DVF+ est pensée pour faciliter la production d’analyses des marchés immobiliers. Il y figure des indicateurs agrégés bien pratiques comme la colonne « libtypbien » permettant de distinguer les biens selon les catégories produites par le Groupe National DVF. De plus, cette donnée est structurée en 13 tables selon le principe « une ligne une vente », permettant d’éviter de nombreux écueils de lecture présents dans la donnée brute comme les doublons. Elle fait l’objet d’une actualisation tous les 6 mois avec un historique de 5 ans qui permet une certaine profondeur historique.

 

Le cas pratique de la production d’une carte des prix des logements sur un territoire via les données DVF+ open-data

 

Cyril Chartreux – Master 2 GAEUR, CY Cergy Paris Université – Septembre 2020

 

Les données DVF+ open-data révèlent leur potentiel lorsqu’elles font l’objet d’une exploitation sur le logiciel de gestion de base de données libre de droits PostgreSQL et son extension spatiale PostGIS. La carte ci-dessus est le résultat de l’exploitation de cette base accessible au public. Elle croise le millésime d’avril 2020 des données DVF+ open-data avec le cadastre et le maillage des IRIS de l’INSEE, permettant d’obtenir une médiane des prix des logements (appartements et maisons) sur une échelle fine. La médiane a été privilégiée sur la moyenne pour limiter l’influence des valeurs extrêmes. Pour ne pas fausser les résultats, les transactions dites « ventes en bloc », qui sont les ventes uniques comprenant plusieurs biens distincts parfois à des localisations complètement différentes, n’ont pas été prises en compte ici, de même que les IRIS dont le nombre total de transactions sur l’année 2019 ne dépasse pas 4 unités. Les graduations ont été faites selon les ruptures naturelles de Jenks, qui maximisent la variance inter-classe tout en minimisant la variance intra-classe, permettant la production de classes bien distinctes.

La carte ainsi produite permet d’observer une concentration des prix les plus élevés sur les quartiers de Bois Lapelote et de l’Enclos à l’année 2019, avec des valeurs médianes comprises en 289 400€ et 321 940€ tandis que les prix les moins élevés se concentrent sur les quartiers Chat Perché, Lanterne, Horloge, Bastide et Centre Gare-Préfecture. Globalement, les prix médians des logements à Cergy oscillent entre et 156 125€ et 289 400€ en 2019, avec des logements valorisés sur le pourtour de la base de loisir. Le prix au mètre carré médian est de 3 268,29€, ce qui est ce qui est légèrement en dessous de ce qui se pratique en moyenne dans l’Ouest parisien en première couronne.

 

Une requête SQL pour les données sources qui puise dans différents champs des tables « mutation » et « local » 

 

SELECT DISTINCT *

 

FROM dvf_d95.mutation
INNER JOIN dvf_d95.local ON mutation.idmutation = local.idmutation

 

WHERE mutation.idmutation IN(valeurs de la colonne « idmuation »  correspondant aux transactions immobilières ayant eu lieu à Cergy )

 

AND mutation.anneemut = ‘2019’
AND mutation.l_codinsee && ARRAY[‘95127’]::VARCHAR[]
AND mutation.codtypbien = ‘121’ OR mutation.codtypbien = ‘111’
AND mutation.libnatmut = ‘Vente’
AND mutation.vefa = ‘false’
AND mutation.valeurfonc BETWEEN ‘1000’ AND ‘5000000’
AND mutation.anneemut = ‘2019’
AND local.nbpprinc BETWEEN ‘1’ AND ’10’
AND local.sbati > ‘8’

 

;

 

Les données sources ont été discriminées via la requête SQL ci-dessus. Comme on peut le voir, cette discrimination repose sur les tables « muation » et « local ». La première table renseigne sur les valeurs des biens, le parcellaire, les dates de mutation ou encore le type de bien via le champ « libtypbien ». La table « local » vient compléter la première en apportant des éléments sur la nature des locaux. Le principal apport est le nombre de pièces et la surface bâtie du logement. Les codes retenus sur la troisième fonction « AND » sont respectivement ceux correspondant à « UN APPARTEMENT » et « UNE MAISON » et des valeurs cadres ont été mises sur la valeur foncière, comprise entre 1000 euros et 5 millions d’euros pour écarter les valeurs trop extrêmes, et le nombre de pièces et la surface bâtie, pour les mêmes raisons.

Ce cas pratique démontre que les données DVF+ open-data du CEREMA et de la DGFiP ont un vrai potentiel et ouvrent la voie à des analyses poussées des dynamiques des marchés fonciers sans nécessairement nécessiter des investissements lourds dans des bases de données très fiables mais coûteuses comme la base BIEN produite par les notaires du Grand Paris pour l’Île-de-France, ce qui est idéal pour les étudiants et les chercheurs ne bénéficiant par des accès ou financements suffisants.

 

Ressources

 

Fiche N°1 – Qu’est-ce que DVF ?

Fiche N°10 – La spatialisation des données DVF