PROJET AUTOBLOG


le hollandais volant links

Site original : le hollandais volant links

⇐ retour index

Gene name errors are widespread in the scientific literature | Genome Biology | Full Text

lundi 10 août 2020 à 16:53

Quand on entre certains trucs dans un case Excel, ce dernier essaye d'interpréter ça : si vous mettez "SEPT2", il convertira ça en "01/09/2002", car il pense que vous avez voulu dire "Septembre 02".

Alors on peut forcer le format d'une cellule, ou alors taper une apostrophe devant le texte qu'on met, et ça affichera exactement ce que vous mettez (hormis l'apostrophe). Sauf que... Si l'on exporte les données en CSV ou TSV, cette mise en forme est perdue et il suffit de réimporter les données pour que la conversion occurre de nouveau.

Ceci pose de gros problèmes quand ce que vous rentrez doit être SEPT2, ou MARCH1 et rien d'autre. En l’occurrence, ces deux chaînes de caractères correspondes à des abréviations de noms de gènes bien précis.
Étant donnée que Excel est utilisé partout, cette étude (lien) a détecté qu'environ 19,6 % des publications analysées et sur la génétique présentaient ce genre d'erreurs : les fichiers de données sont enregistrées, puis rouvert par les chercheurs ou les éditeurs et sans faire gaffe on se retrouve avec des conversions dans les tableaux.

Maintenant, est-ce que Excel va corriger le problème ? Probablement pas.
A la place, la communauté scientifique s'invite à modifier les noms (pratiquement standardisés) des gènes. Merveilleux.

Combien de futures études ou futures méta-études seront faussées car ils chercheront le nouveau nom et pas l'ancien ? Un paquet, j'imagine, surtout dans 5 ou 10 ans quand on aura oublié ce changement...

Libre Office, ou même le vieil Open Office, n'ont pas ce problème : les conversions n'y sont pas automatiques et il faut expressément demander au programme de faire une conversion.

(Merci Yves pour le lien !)


— (permalink)