-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathrapport.tex
102 lines (63 loc) · 7.98 KB
/
rapport.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
\section{Introduction}
Nous allons dans ce document présenter notre analyse et traitement d'un jeu de données qui nous a été fournis, contenant des informations sur les 293 communes du département du Rône. Nous verrons tout d'abord en détails quelles sont les données que l'on nous a fournis, quelles autres informations nous avons pu leur adjoindre afin de faciliter leur analyse puis on se concentrera ensuite sur la technique utilisée et les résultats que nous avons obtenus, étape par étape.
\section{Jeux de données}
\subsection{Jeu original}
Le jeu de données qui nous était fournis nous a servi de base dans notre recherche. Il propose des données démographiques telles que les taux de naissances/décès, des informations sur les revenus, sur le nombre de foyers, et sur la présence ou non de certaines industries. Le tout par commune.
\subsection{Coordonnées GPS IGN}
Afin de mieux visualiser le jeu original dans l'espace, nous lui avons adjoint les coordonnées GPS de chaque commune, nous permettant ainsi de placer sur une carte les communes et de pouvoir comparer leur emplacement avec d'autres de leurs caractéristiques.
\subsection{Recensement INSEE}
Bien qu'il soit indiqué dans les variables qu'il y est une estimation de la population en 2006, ces données sont absentes du jeu de base, nous avons donc rajouté des informations démographiques provenant d'un recensement de 2008 effectué par l'INSEE et qui nous permettent de connaître le nombre total d'habitants par commune, tout en ajoutant une nouvelle dimension qui est la classification de ces effectifs par tranches d'âge, qui pourra éventuellement donner lieux à une analyse plus fine.
\section{Analyse}
\subsection{Considération sur les domaines d'activité}
Nous allons commencer par une exploration basique des données afin de tirer des conclusions simples ou plutôt vérifier que nous manipulons les données correctement en comparant les résultats obtenus avec les connaissances que nous avons sur le département.
La chaîne de composants ci-dessous permet de créer un affichage de "boîtes à moustaches" pour les différents domaines d'activités, à savoir le service, le commerce, la construction et l'industrie.
\begin{center}
\includegraphics[width=0.9\textwidth]{png/BoxPlotDomainesActivité_knime.png}
\end{center}
Pour calculer le pourcentage que réprésente un secteur d'activité, nous avons utlisé le composant \textit{Math Formula}, qui nous permet de faire des calculs mathématiques avec les valeurs des attributs. Dans notre cas, pour le calcul du pourcentage d'établissements de service dans une commune, il suffit de diviser le nombre d'établissements actifs de service par le nombre total d'établissements actifs. Nous avons fait de même pour le reste.
\begin{center}
\includegraphics[width=0.9\textwidth]{png/MathFormulaEtsActifServiceRelatif.png}
\end{center}
On obtient le graphique suivant, avec les "boites à moustaches" pour les différents domaines d'activité. Cela permet de mettre en évidence que les communes du département du Rhône ont majoritairement des établissements de service, ce qui n'est pas étonnant. On remarquera que nous avons quelques valeurs exceptionnelles, notamment la commune de Riverie, qui compte 94\% d'établissement de service, mais il s'agit d'une des plus petits communes du département en taille et nombre d'habitants, il faut donc relativiser l'importance de l'activité de service.
D'ailleurs un certains nombre de communes ne comptent pas d'établissement de construction ou d'industrie, ce qui n'est guère étonnant vue la petite taille de certaines d'entre elles. Pour les établissements de commerces, la valeur 0\% est mise en dehors du premier quartile, mais on ne peut malgré tout pas considérer cela comme une valeur extraordinaire.
\begin{center}
\includegraphics[width=0.9\textwidth]{png/BoxPlotDomainesActivité.png}
\end{center}
\subsection{Considération sur la densité de population}
Nous allons utiliser un outil plus puissant offert par Knime afin d'analyser les données: la clusterisation grâce à l'algorithme k-Means. Nous n'appliquerons la clusterisation que sur un seul paramètre dans ce cas.
Nous avons adjoint les coordonnées géographiques de chaque commune afin de pouvoir obtenir une réprésentation spatiale réaliste. La clusterisation n'étant pas fait sur des critéres géographiques, cela nous permet de voir si les groupements qui apparaissent se retrouve sur une carte, car la position d'une commune fait pleinement partie de son identité.
Nous avons également ajouté un jeu de données sur la population totale (sans double compte) de chaque commune datant de 2008, car la variable POPEST06 (Population totale estimée en 2006) est absente du jeu de données de base, celle des données datant de 1999 sont disponibles.
Le workflow utilisé est le suivant:
\begin{center}
\includegraphics[width=0.9\textwidth]{png/Clusterisation_en_fonction_de_la_densité_de_population.png}
\end{center}
Le cluster obtenu est le suivant:
\begin{center}
\includegraphics[width=0.9\textwidth]{png/Clusters_en_fonction_de_la_densité_de_population.png}
\end{center}
On remarque ou plutôt on vérifie bien que les clusters de hautes densité sont Lyon et Villeurbanne, ainsi que leur périphérie, avec une décroissance plus on s'éloigne. Villefranche-sur-Saône, situé sur la frontière entre l'Ain et le Rhône, se démarque part sa haute densité dûe à sa forte activité. Des données sur l'Ain permettrait peut être de remarquer un autre cluster de haute densité vers cette zone.
Nous avons également vérifier la stabilité de notre clusterisation en comparant simplement la taille des clusters entre les différentes intérations. C'est le moyen le plus simple pour faire une vérification, pour plus de précision, il faudrait également vérifier que ce sont bien les mêmes éléments qui composent les clusters.
\begin{center}
\includegraphics[width=0.9\textwidth]{png/Outil_de_vérification_de_la_stabilité_de_la_clusterisation_en_fonction_de_la_densité_de_population.png}
\end{center}
Suivant les différentes intérations, nous obtenons bien des clusters de même taille, nous supposerons donc qu'il s'agit des mêmes.
\begin{center}
\includegraphics[width=0.9\textwidth]{png/visualisation_de_la_stabilité_de_la_clusterisation_en_fonction_de_la_densité_de_population.png}
\end{center}
\subsection{Considération sur la richesse}
Nous avons aussi voulu vérifier s'il existait un lien entre le pourcentage de foyers imposés et le revenu moyen par foyer. Nous avons donc mis ces deux variables en relation dans Knime, ce qui nous a permis de nous rendre compte qu'il n'existait presque aucune corrélation entre ces valeurs :
\begin{center}
\includegraphics[width=0.9\textwidth]{png/pourcentage-foyers-imposable-vs-revenu.png}
\end{center}
Nous avons pu confirmer cette impression en essayant de réaliser des clusters sur ces variables, ce qui s'est avéré être là aussi un echec.
De la même manière, nous avons pu voir que le revenu moyen par foyer n'était que très peu relié à la moyenne d'âge constaté dans la commune. Nous l'avons d'abord visualisé dans une matrice de corrélation :
\begin{center}
\includegraphics[width=0.2\textwidth]{png/matrice-correlation-age-revenu.png}
\end{center}
Puis nous l'avons confirmé à en mettant directement ces deux paramètres, l'un en fonction de l'autre :
\begin{center}
\includegraphics[width=0.9\textwidth]{png/scatter-matrix-age-revenu.png}
\end{center}
%Faudrait un cluster sur 2 ou 3 paramètres, j'ai tester avec les établissements et foyers imposés et d'autres conneries mais rien
\section{Conclusion}
Au final, on constate que les techniques de data-mining mises à notre disposition par Knime nous permettent d'éfficacement étudier un jeu de données, mais aussi de pouvoir mettre en relation ces informations avec des données issues de d'autres sources. Le logiciel utilisé, Knime, est un puissant outil de visualisation, permettant d'obtenir rapidement différentes vues utiles et exploitables de nos données.