Si vous essayez de traiter un fichier texte peu maniable, le fractionner en sections peut parfois réduire le temps de traitement, en particulier si nous allions importer un fichier dans une feuille de calcul. Ou vous voudrez peut-être simplement récupérer un ensemble particulier de lignes à partir d’un fichier.
Entrez split, wc, tail, cat et grep. (n’oubliez pas sed et awk). Linux contient un ensemble complet d’utilitaires pour travailler avec des fichiers texte sur la ligne de commande. Pour notre tâche aujourd’hui, nous utiliserons split et wc.
Jetons d’abord un œil à notre fichier journal….
> ls -l
-rw-r – r– 1 thegeek ggroup 42046520 19/09/2006 11:42 access.log
Nous voyons que la taille du fichier est de 42 Mo. C’est un peu gros… mais avec combien de lignes avons-nous affaire? Si nous voulions importer cela dans Excel, nous aurions besoin de le conserver à moins de 65 000 lignes.
Vérifions le nombre de lignes dans le fichier à l’aide de l’utilitaire wc, qui signifie «nombre de mots».
> wc -l access.log
146330 access.log
Nous sommes bien au-dessus de notre limite. Nous devrons diviser cela en 3 segments. Nous utiliserons l’utilitaire de fractionnement pour ce faire.
> split -l 60000 access.log
> ls -l
total 79124
-rw-rw-r– 1 ggroup thegeek 40465200 19/09/2006 12:00 access.log
-rw-rw-r– 1 thegeek ggroup 16598163 19/09/2006 12:05 xaa
-rw-rw-r– 1 thegeek ggroup 16596545 19/09/2006 12:05 xab
-rw-rw-r– 1 thegeek ggroup 7270492 19/09/2006 12:05 xac
Nous avons maintenant divisé nos fichiers texte en 3 fichiers séparés, chacun contenant moins de 60000 lignes, ce qui semblait être un bon nombre à choisir. Le dernier fichier contient le montant restant. Si vous deviez couper ce fichier particulier en deux, vous auriez fait ceci:
> split -l 73165 access.log
Et c’est tout ce qu’il y a à faire.