Comment détecter automatiquement l'encodage d'un fichier texte ?
Il existe de nombreux fichiers de texte brut qui ont été encodés dans des jeux de caractères différents.
Je veux les convertir tous en UTF-8, mais avant de lancer iconv, je dois connaître son encodage d'origine. La plupart des navigateurs ont une option Auto Detect
dans les encodages, cependant, je ne peux pas vérifier ces fichiers texte un par un car ils sont trop nombreux.
N'ayant connu que le codage d'origine, je peux alors convertir les textes par iconv -f DETECTED_CHARSET -t utf-8
.
Existe-t-il un utilitaire pour détecter le codage des fichiers texte en clair ? Il n'est pas nécessaire qu'il soit parfait à 100%, cela ne me dérange pas s'il y a 100 fichiers mal convertis en 1.000.000 de fichiers.