MySQL : charger un fichier sans délimiteur avec LOAD DATA INFILE (taille des champs fixe)

12 Avr 2011 2 No tags

MySQL permet d’importer des fichiers grâce à l’instruction LOAD DATA INFILE. Il arrive fréquement que les fichiers d’import ne possèdent pas de délimiteur et qu’il faille se baser sur la taille des champs afin de retrouver la correspondance entre champ et donnée.
MySQL permet de charger ce type de fichier sans problème mais il existe une petite subtilité à connaitre.

Utiliser l’encodage latin1 pour les tables d’import

Prenons l’exemple d’un fichier très simple (id, nom, prenom). Chaque ligne fait 35 caractères et respecte le format suivant :
[text] ID = 5 caractères
NOM = 15 caractères
PRENOM = 15 caractères
[/text]

Voici un fichier de test (/home/nhac/utilisateurs.import):
[text] 00001 Travolta John
00002 Dylan Bob
00003 Murhpy Eddy
[/text]

L’astuce pour charger le fichier sous MySQL est d’indiquer CHARSET ‘latin1’ lors de la création de la table. En effet, si vous spécifiez CHARSET ‘UTF8’, le chargement ne se fera pas correctement.

[sql] — Creation de la table cible
DROP TABLE IF EXISTS utilisateurs;
CREATE TABLE IF NOT EXISTS utilisateurs (
`id` CHAR(5),
`nom` CHAR(15),
`prenom` CHAR(15)
) ENGINE=MyISAM CHARSET ‘latin1’;

— Chargement du fichier
LOAD DATA LOCAL INFILE ‘/home/nhac/utilisateurs.import’
INTO TABLE utilisateurs
FIELDS TERMINATED BY  » ENCLOSED BY  »
(
`id`, `nom`, `prenom`
);
[/sql]

Rien ne vous empêche de transférer ces données encodées en latin1 vers une table en UTF8 après l’import.

Pourquoi faut-il utiliser latin1 lors des imports de taille fixe ?

Vous trouverez de l’info sur les liens Wikipedia ci-dessous. La chose à retenir est qu’en UTF8 les caractères sont codés sur un nombre d’octets variables (entre 1 et 4). MySQL ne peut donc pas savoir à l’avance combien il doit prévoir pour stocker les données, et donc combien de caractères il doit lire dans le fichier.
A l’inverse en latin1 (dit ISO-8859-1), les caractères sont codées sur un seul octet. MySQL sait donc qu’il doit lire un et un seul octet à partir du fichier.

Lien Wikipédia vers l’ISO-8859-1
Lien Wikipédia vers l’UTF8
Aller plus loin sur le sujet

2 Comments
  • Poil2Q
    juin 8, 2012

    Pour info il y a beaucoup plus simple (et surtout plus rapide que d’énumérer les colonnes) et surtout sans erreur :

    Utilisateur le ‘CHARACTER SET’ directement dans le LOAD DATA :


    # on indique l'encodage par defaut
    SET CHARACTER SET 'utf8';
    SET collation_connection = 'utf8_unicode_ci';

    # on creer une table en tru8
    CREATE TABLE uneTable (
    unChamps VARCHAR(100)
    ) ENGINE=InnoDB DEFAULT CHARACTER SET = utf8
    COLLATE = utf8_unicode_ci;

    # on importe un fichier en ANSI
    LOAD DATA INFILE 'monFichierEnAnsi.txt'
    INTO TABLE uneTable
    CHARACTER SET latin1
    FIELDS TERMINATED BY ';'
    ENCLOSED BY ''
    LINES TERMINATED BY 'n';

    Grâce au ‘CHARACTER SET’ dans le LOAD DATA, Mysql sait par avance qu’il doit traiter un fichier en ANSI donc plus rapide, plus sur et plus facile à mettre en place

Leave a Reply

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *