Discussion
Loading...

Post

Log in
  • About
  • Code of conduct
  • Privacy
  • Users
  • Instances
  • About Bonfire
Nicolas Fressengeas
Nicolas Fressengeas
@fresseng@universites.social  ·  activity timestamp 9 hours ago

RE: https://pouet.couchet.org/@frederic/116052244753022282

"L'impact métier : le cas critique des données scientifiques

Ce débat dépasse le cadre de la philosophie du logiciel libre. Les conséquences sur l'intégrité des données sont lourdes. Un exemple frappant concerne la gestion des noms de gènes dans Excel.

Pendant des années, le logiciel a converti automatiquement des symboles alphanumériques, comme MARCH1, en dates (1-Mar). Ce processus a corrompu des bases de données de recherche mondiales.
"

  • Copy link
  • Flag this post
  • Block
RoedigerRG
RoedigerRG
@RoedigerRG@social.anoxinon.de replied  ·  activity timestamp 8 hours ago

@fresseng C’est exact. Ce sujet est toujours présent dans l’introduction de mes cours d’informatique biologique. Il y a plusieurs années, la précision numérique était également un thème à Excel. Les logiciels open‑source n’étaient pas forcément plus précis, mais on pouvait au moins étudier les algorithmes, identifier le problème et l’améliorer.

https://journals.plos.org/ploscompbiol/article?id=10.1371%2Fjournal.pcbi.1008984
https://www.science.org/content/article/one-five-genetics-papers-contains-errors-thanks-microsoft-excel
https://theconversation.com/excel-autocorrect-errors-still-plague-genetic-research-raising-concerns-over-scientific-rigour-166554

accuracy:

https://www.sciencedirect.com/science/article/pii/S0167947397817562

https://www.sciencedirect.com/science/article/pii/S0167947304000337

Gene name errors: Lessons not learned

Author summary Autocorrection is a feature of modern softwares including messaging apps, word processors and spreadsheets. These are designed to avoid data entry errors but “autocorrect fails” can lead to information being distorted in undesired and sometimes humorous ways. What is not funny though is having genomics spreadsheets suffer from auto-conversion of gene names like SEPT8, DEC1 and MARCH3 into dates, a problem first characterised in 2004. A 2016 article on this topic led the Human Gene Name Consortium to change many of these gene names to be less susceptible to autocorrect. Despite this, our work here shows that gene name autocorrect errors continue to accumulate in supplementary genomics spreadsheet files at a rapid pace. To avoid this and other reproducibility problems with spreadsheets, big changes are required in the way genomics scientists analyse and share data. We provide several practical steps researchers can take to avoid gene name errors and reiterate that big genomics data analysis is better suited to Python/R notebooks rather than spreadsheets.
  • Copy link
  • Flag this comment
  • Block
Nicolas Fressengeas
Nicolas Fressengeas
@fresseng@universites.social replied  ·  activity timestamp 7 hours ago

@RoedigerRG Merci !

Le texte indique également :

"""
Une étude met en lumière l'ampleur du problème :
* Environ 20% des articles scientifiques examinés contenaient des erreurs liées à l'auto-formatage d'Excel
* Le comité HGNC a dû renommer 27 gènes humains pour éviter ces erreurs de conversion systématiques
* Microsoft a proposé une option pour désactiver cette conversion uniquement en 2023, soit des années après le signalement du problème
"""

20% me parait gigantesque. Qu'en pensez-vous ?

  • Copy link
  • Flag this comment
  • Block

bonfire.cafe

A space for Bonfire maintainers and contributors to communicate

bonfire.cafe: About · Code of conduct · Privacy · Users · Instances
Bonfire social · 1.0.2-alpha.27 no JS en
Automatic federation enabled
Log in
  • Explore
  • About
  • Members
  • Code of Conduct