donnees_20260325_142928

49,00 

Générer une population synthétique et l’exporter en Excel

UGS : donnees_20260325_142928 Catégorie :

Fiche Descriptive

📋 Fiche Descriptive de Script (Data Generation)

🔷 INFORMATIONS GÉNÉRALES

Champ Détail

Nom du fichier onizuka_x8u45rzbzmrii8kr_333.py

Version 1.0.0

Auteur / Designer Refoia Jeremy Tech (Analyse IA)

Type de script Simulation de données / Export Pandas

Objectif principal Générer une population synthétique et l’exporter en Excel

🎯 DESCRIPTION FONCTIONNELLE

📌 Que fait ce script ?

Ce script automatise la création d’un jeu de données fictif représentant une population de 1000 individus. Il calcule des âges basés sur une distribution normale et assigne des genres de manière aléatoire et équilibrée, puis compile le tout dans un fichier Excel exploitable.

📌 Cas d’usage

Génération de données de test pour des analyses statistiques.

Initialisation d’une base de données factice pour un prototype.

Démonstration de manipulation de DataFrames avec Pandas.

⚙️ SPÉCIFICATIONS TECHNIQUES

🌐 Environnement & Dépendances

Langage : Python 3.x

Librairies principales :

pandas : Pour la structuration et l’export des données.

numpy : Pour la génération de nombres aléatoires et la distribution normale.

openpyxl (dépendance implicite) : Requis pour l’écriture au format .xlsx.

📥 VARIABLES DE CONFIGURATION

Variable Type Valeur Description

n_individus int 1000 Taille totale de l’échantillon.

age_moyen int 45 Moyenne de la courbe de Gauss pour l’âge.

proportion_hommes float 0.5 Probabilité (50%) pour le genre ‘H’.

📤 SORTIES & RÉSULTATS

📂 Fichiers Générés

Nom : population.xlsx

Structure du fichier :

Colonne A (Age) : Valeurs flottantes (ex: 42.34, 55.12).

Colonne B (Genres) : Valeurs catégorielles (‘H’ ou ‘F’).

🧱 STRUCTURE DU CODE

Python

# 1. Importation des bibliothèques

# 2. Définition des paramètres de simulation

# 3. Calcul mathématique (Distribution Normale via NumPy)

# 4. Construction du DataFrame (Pandas)

# 5. Écriture disque (Méthode .to_excel)

🎨 LOGIQUE MATHÉMATIQUE

Le script utilise une distribution normale (courbe de Gauss) pour l’âge :

f(x)=σ2π​1​e−21​(σx−μ​)2

Où :

μ (loc) = 45

σ (scale) = 10

🧪 TESTS & VALIDATION

# Cas de test Résultat attendu Statut

1 Exécution du script Création du fichier population.xlsx ✅

2 Volume de données Le fichier contient exactement 1001 lignes (header inclus) ✅

3 Distribution Âge La majorité des individus ont entre 35 et 55 ans ✅

4 Répartition Genres Ratio H/F proche de 50/50 sur un grand échantillon ✅

🔴 RÈGLES STRICTES DE MAINTENANCE

Performance : Ne pas augmenter n_individus au-delà de 1 000 000 sans surveiller la RAM.

Intégrité : Toujours vérifier que la librairie openpyxl est installée sur l’environnement cible pour éviter une erreur d’export.

Évolutivité : Pour des données plus réalistes, arrondir les âges avec np.round().

📌 Fiche générée par — Agent IA Refoia Jeremy Tech

🔖 Usage : Documentation de script Data Science

Avis

Il n’y a pas encore d’avis.

Soyez le premier à laisser votre avis sur “donnees_20260325_142928”

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *