Kaip „Microsoft Excel“ privelia klaidų daugybėje mokslinių straipsnių: geriausia išeitis - naudoti kitą programą

Stulbinamai daug mokslinių genetikos srities straipsnių yra su klaidomis, sukeltomis Microsoft Excel, rodo analizė publikuota Genome Biology žurnale.

Australijos mokslininkų komanda išanalizavo mažne 3600 straipsnių apie genetiką, publikuotų žymiausiuose mokslo žurnaluose, – tokiuose kaip Nature, Science ir PLoS One. Kaip įprasta šioje srityje, visi straipsniai pateikti su papildomais failais, kuriuose surašyti tyrime naudoti genai.

Australijos mokslininkai išsiaiškino, kad maždaug 1 iš 5 tokių straipsnių, genų sąrašuose buvo klaidos, kylančios dėl to, kad Excel automatiškai pavertė genų pavadinimus kalendoriaus datomis ar skaičių kratiniu.

Mokslinėje literatūroje genai dažnai nurodomi simboliais — iš esmės, sutrumpintomis pilno geno pavadinimo versijomis. Genas Septin 2 dažniausiai sutrumpinamas iki SEPT2. Membrane-Associated Ring Finger (C3HC4) 1, E3 Ubiquitin Protein Ligase maloningai sutrumpinama iki MARCH1.

Tačiau šiuos sutrumpintus pavadinimus surašius į Excel, programa automatiškai nusprendžia, kad tai užrašyta data — Sept. 2 (rugsėjo 2) ir atitinkamai March 1 (kovo 1). Įrašius SEPT2 į standartiškai sukonfigūruotos Excel programos langelį, užrašas stebuklingai tampa „2-Sep“. Programa išsaugo ją kaip datą 9/2/2016.

Negana to, pritaikius šį automatinį formatavimą, paprasčiausiai jo atšaukti neįmanoma. Edit -> Undo (Ctrl+Z) paprasčiausiai langelyje viską ištrina. Tikintis pakeisti atsiradusią datą atgal į pradinius ženklus, gali kilti mintis pabandyti pakeisti formatą iš standartinio „General“, į „Text“. Bet pakeitus formatą į „Text“ langelyje atsiranda 42615 — vidinis Excel skaitinis kodas, atitinkantis 9/2/2016 datą.

Ką įrašoteKą matoteKaip Excel išsaugoMARCH11-MAR42430SEPT22-SEP42615

Tyrėjai pažymi, kad dar labiau neramina, kad automatinio datos formatavimo Excel išjungti neįmanoma. Mokslininkai turi kaskart atsiminti rankomis pakeisti stulpelio formatą į „Text“ prieš ką nors rašydami naujame Excel lape.

Bet netgi genomo tyrinėtojai tėra žmonės, ir kartais užmiršta tai atlikti. Iš čia ir penktadalis mokslinių straipsnių, kuriuose yra Excel klaida, kurios galima išvengti.

Australijos mokslininkai pažymi, kad ši problema pirmą kartą aptikta seniau nei prieš dešimtmetį publikuotame straipsnyje. „Tačiau šios klaidos ir toliau pasitaiko papildomuose mokslinių straipsnių failuose,“ rašo jie.

Ne vien genetikos srityje viso gyvenimo darbus gali sugadinti skaičiuoklės klaida. Harvardo ekonomistė Carmen Reinhart ir Kenneth Rogoff padarė garsiąją Excel klaidą — praleido kelias duomenų skaičiavimo eilutes — dėl kurios smarkiai pervertino neigiamą didelės skolos įtaką BVP. Kitose srityse tyrėjai kartkartėmis turi paskelbti atšaukimą aptikę Excel klaidas.

Tyrėjai iš Australijos pažymi, kad Excel ne vienintelė skaičiuoklė, kamuojama pernelyg agresyvaus automatinio formatavimo problemų — tokių pat klaidų pasitaiko taipogi ir atvirojo kodo programose – LibreOffice Calc ir Apache OpenOffice Calc.

Tačiau jie pabrėžia, kad, vienai visiškai nemokamai skaičiuoklei nekyla jokių sunkumų saugant genų pavadinimus — Google Sheets.

Kol kas vienintelė išeitis tyrėjams ir žurnalų redaktoriams – su duomenų failais dirbti akylai. O dar geriau – visiškai atsisakyti Excel ir naudoti programas ir kalbas, kurios ir buvo sukurtos statistiniams tyrimams, pavyzdžiui, R ir Python.

Christopher Ingraham
www.washingtonpost.com

   

Facebook komentarai