Date științifice deschise

domeniu al cercetării cu acces deschis

Datele științifice deschise sau datele de cercetare deschise sunt un tip de date deschise axat pe publicarea de observații și rezultate ale activităților științifice disponibile pentru ca oricine să le analizeze și să le refolosească. Un scop major al acțiunii pentru date deschise este acela de a permite verificarea afirmațiilor științifice, permițând altora să verifice reproductibilitatea rezultatelor,[1] și să permită integrarea datelor provenite din mai multe surse pentru a obține noi cunoștințe.[2]

Conceptul modern de date științifice a apărut în a doua jumătate a secolului al XX-lea, odată cu dezvoltarea unei mari infrastructuri de cunoștințe pentru evidența informațiilor științifice și a observațiilor. Partajarea și distribuirea datelor au fost identificate timpuriu ca având o miză importantă, dar a fost împiedicată de limitările tehnice ale infrastructurii și de lipsa standardelor comune pentru comunicarea datelor. World Wide Web a fost imediat conceput ca un protocol universal pentru partajarea datelor științifice, în special a celor provenite din fizica energiilor înalte.

Definiție

modificare

Date științifice

modificare

Conceptul de „date științifice deschise” s-a dezvoltat în paralel cu conceptul de „date științifice”.

„Datele științifice” nu au fost definite oficial până la sfârșitul secolului al XX-lea. Înainte de generalizarea analizei computaționale, datele erau în mare parte termeni informali, folosiți frecvent alternativ cu termenii „cunoștințe” și „informații”.[3] Discursurile instituționale și epistemologice au favorizat concepte și perspective alternative asupra activităților științifice: „Chiar și istoriile științei și comentariile de epistemologie, menționează datele doar în trecere. Alte lucrări fundamentale care clarifică sensul în știință discută fapte, reprezentări, inscripții și publicații, fără a pune accent pe datele propriu-zise.”[4]

Prima definiție a datelor științifice care a avut impact a apărut în 1999, când Academia Națională de Științe a Statelor Unite ale Americii⁠(d) a descris datele ca „fapte, litere, numere sau simboluri care descriu un obiect, o condiție, o situație sau alți factori”. Terminologiile au continuat să evolueze: în 2011, Academiile Naționale au actualizat definiția pentru a include o mare varietate de obiecte descrise de date, cum ar fi „date spectrografice, de secvențiere genomică și microscopie electronică; date de observație, cum ar fi teledetecția, geospațiale și date socioeconomice, alte forme de date, fie generate, fie compilate, de oameni sau mașini”, precum și „reprezentarea digitală a literaturii”.[5]

În timp ce formele și aspectele datelor nu sunt stabilizate, definițiile și politicile standard au avut recent tendința de a restricționa datele științifice la date computaționale sau digitale.[6] Programul pilot de date deschise al Orizont 2020 a fost limitat în mod voluntar la cercetarea digitală: „«Datele de cercetare digitale» sunt informații în formă digitală (în special fapte sau numere), colectate pentru a fi examinate și utilizate ca bază pentru raționament, discuții sau calcule; acestea cuprind statistici, rezultatele experimentelor, măsurătorile, observațiile rezultate din munca de teren, rezultatele sondajului, înregistrările interviurilor și imaginile”[7]

În general, starea datelor științifice rămâne un punct flexibil de discuție între cercetătorii individuali, comunitățile și factorii de decizie politică: „În termeni mai largi, orice «date» care prezintă interes pentru cercetători ar trebui tratate ca «date de cercetare»”.[6] Rapoarte importante de reglementare, cum ar fi sinteza colectivă din 2012 a Academiilor Naționale de Științe privind citarea datelor, au adoptat în mod intenționat o definiție relativă și nominalistă a datelor: „vom dedica puțin timp problemelor de definiție (de exemplu, ce sunt datele?), cu excepția faptului că recunoașterii că datele există adesea în ochii privitorului”.[8] Pentru Christine Borgman, problema principală nu este de a defini datele științifice („ce sunt datele”), ci a contextului privind punctul în care datele au devenit un punct central de discuție în cadrul unei discipline, unei instituții sau unui program național de cercetare („când sunt considerate date”).[9] În anii 2010, sporirea surselor de date disponibile și sofisticarea metodei de analiză a datelor a lărgit gama de discipline afectate în primul rând de problemele legate de managementul datelor la „științe sociale computaționale⁠(d), umanități digitale⁠(d), analiza rețelelor sociale⁠(d), știința civică proiecte de cercetare și politologia".[10]

Date științifice deschise

modificare

Deschiderea și partajarea au fost ambele subiecte de discuție majore cu privire la gestionarea datelor științifice, dar și o motivație pentru a face ca datele să devină o problemă relevantă în cadrul unei instituții, unei discipline sau unui cadru politic.

Pentru Paul Edwards, faptul dacă datele ar trebui sau nu partajate, cât din ele ar trebui să fie partajate și cui au fost cauzele majore ale frecării datelor, ceea ce a dezvăluit alte probleme ascunse ale infrastructurilor științei: „Metafora lui Edward a frecării datelor descrie ce se întâmplă la interfețele dintre „suprafețele” de date: punctele în care datele circulă între oameni, substraturi, organizații sau mașini (...) Fiecare trecere a datelor printr-o interfață are un anumit cost în timp, energie și ocupare a oamenilor. Fiecare interfață între grupuri și organizații, precum și între mașini, reprezintă un punct de poticnire în care datele pot fi deranjate, interpretate greșit sau pierdute. În sistemele sociale, frecarea datelor consumă energie și produce agitație și iritare — conflicte, neplăceri și indisciplină”.[11] Trecerea la date științifice deschise este atât o frecare de date în sine, cât și o modalitate de a gestiona colectiv frecările de date prin tratarea problemelor complexe ale proprietății datelor. Culturile științifice sau epistemice au fost recunoscute ca factori primari în adoptarea politicilor privind datele deschise: „practicile de partajare a datelor ar fi de așteptat să fie legate de comunitate și determinate în mare măsură de cultura epistemică”.[12]

În anii 2010, oamenii de știință și factorii de decizie au introdus noi concepte pentru a defini mai precis ce sunt datele științifice deschise. De la introducerea sa în 2016, datele FAIR⁠(d) au devenit un obiectiv major al politicilor de cercetare deschise. Acronimul descrie un tip ideal de date: Findable, Accessible, Interoperable, and Reusable (în română găsibile, accesibile, interoperabile și reutilizabile). Datele științifice deschise au fost clasificate drept bunuri comune sau publice, care sunt în primul rând întreținute, îmbogățite și păstrate prin acțiune de obicei colectivă, nu individuală: „Ceea ce face ca acțiunea colectivă să fie utilă în înțelegerea partajării de date științifice este concentrarea asupra modului în care este determinată alocarea câștigurilor individuale prin ajustarea costurilor și beneficiilor care se acumulează în urma contribuțiilor la o resursă comună".[13]

modificare

Deschiderea datelor științifice a ridicat o varietate de probleme juridice în legătură cu drepturile de proprietate, drepturile de autor, confidențialitatea și etica. Deși se consideră în mod obișnuit că cercetătorii „sunt deținătorii datelor pe care le colectează în cursul cercetării lor”, această „vizualizare este incorectă”:[14] crearea setului de date implică potențial drepturile a numeroși actori suplimentari, cum ar fi instituții (agenții de cercetare, finanțatori, organisme publice), producători de date asociați, date personale despre cetățeni privați.[14] Ca urmare, situația juridică a datelor digitale a fost descrisă drept „un pachet de drepturi” datorită faptului că „categoria juridică de „proprietate” (...) nu este un model potrivit pentru a face față complexității problemelor de administrare a datelor”[15]

Drepturi de autor

modificare

Până în anii 2010 drepturile de autor au fost principalul obiectiv al literaturii juridice a datelor științifice deschise. Legalitatea partajării datelor a fost identificată de la început ca o problemă crucială. Spre deosebire de partajarea publicațiilor științifice, principalul impediment nu a fost dreptul de autor, ci incertitudinea: „conceptul de «date» [a fost] un concept nou, creat în era computerelor, în timp ce legea drepturilor de autor a apărut în momentul publicațiilor tipărite”.[16] În teorie, prevederile privind drepturile de autor și drepturile de autor nu se aplică simplei culegeri de fapte și cifre. În practică, noțiunea de date este mult mai extinsă și ar putea cuprinde conținut protejat sau aranjare creativă a conținuturilor fără drept de autor.

În convențiile internaționale privind proprietatea intelectuală statutul datelor este ambiguu. Potrivit articolului 2 din Convenția de la Berna, „orice producție din domeniul literar, științific și artistic” este protejată.[16] Însă adesea datele de cercetare nu sunt o creație originală produsă în întregime de unul sau mai mulți autori, ci mai degrabă o „colecție de fapte, de obicei adunate folosind instrumente automate sau semiautomatizate sau echipamente științifice”.[16] În consecință, nu există o convenție universală privind drepturile de autor asupra datelor și dezbaterile privind „măsura în care se aplică dreptul de autor” sunt încă predominante, cu rezultate diferite în funcție de jurisdicție sau de specificul setului de date.[16] Această lipsă de armonizare provine în mod logic din noutatea „datelor de cercetare” drept concept cheie al cercetării științifice: „conceptul de „date” este un concept nou, creat în era computerului, în timp ce legea dreptului de autor a apărut la momentul publicațiilor tipărite".[16]

În Statele Unite, Uniunea Europeană și alte câteva jurisdicții, legile drepturilor de autor au recunoscut o deosebire între datele în sine (care pot fi „fapte”) neprotejate și compilarea datelor (care poate fi un aranjament creativ).[16] Acest principiu precede în mare măsură dezbaterea politică contemporană asupra datelor științifice, deoarece cele mai vechi cauze judecătorești care au decis în favoarea drepturilor de compilare datează din secolul al XIX-lea.[17]

Chiar și în jurisdicția în care aplicarea dreptului de autor asupra datelor de ieșire rămâne nedeterminată și parțial teoretică, aceasta a creat totuși incertitudini juridice semnificative. Limita dintre un set de fapte brute și o compilație originală nu este clar delimitată.[18] Deși organizațiile științifice sunt de obicei foarte conștiente de legile drepturilor de autor, complexitatea drepturilor asupra datelor creează provocări fără precedent.[19] După 2010, jurisdicțiile naționale și supranaționale și-au schimbat parțial poziția în ceea ce privește protecția drepturilor de autor ale datelor de cercetare. Pe măsură ce partajarea este încurajată, datele științifice au fost, de asemenea, recunoscute ca un bun public informal: „factorii de politici, finanțatorii și instituțiile academice lucrează pentru a crește gradul de conștientizare că, în timp ce publicațiile și cunoștințele derivate din datele de cercetare aparțin autorilor, datele de cercetare trebuie să fie considerate un bun public, astfel încât valoarea lor potențială socială și științifică să poată fi realizată”.[12]

Drepturile de autor pentru bazele de date

modificare

Uniunea Europeană oferă unul dintre cele mai puternice cadre de proprietate intelectuală pentru date, cu un strat dublu de drepturi: drepturi de autor pentru compilațiile originale (în mod similar cu Statele Unite) și drepturi de baze de date „sui generis”. [18] Criteriile pentru originalitatea compilațiilor au fost armonizate în toate statele membre, prin Directiva privind bazele de date⁠(d) din 1996 și prin câteva jurisprudențe majore soluționate de Curtea Europeană de Justiție, cum ar fi „Infopaq International A/S v Danske Dagblades Forening c” sau „Football Dataco Ltd et al. v Yahoo! UK Ltd”. În general, s-a recunoscut că eforturile semnificative în realizarea setului de date nu sunt suficiente pentru a revendica drepturi de compilare, deoarece structura trebuie să „își exprime creativitatea într-o manieră originală”[20] Directiva privind bazele de date a introdus, de asemenea, un cadru original de protecție pentru setul de date, „drepturile sui generis” care sunt conferite oricărui set de date care necesită o „investiție substanțială”.[21] Actual drepturile sui generis durează 15 ani, dar au potențialul de a deveni permanente, deoarece pot fi reînnoite pentru fiecare actualizare a setului de date.

Datorită domeniului lor larg de aplicare în ceea ce privește lungimea și protecția, drepturile „sui generis” nu au fost inițial recunoscute în mare măsură de jurisprudența europeană, care a cerut un nivel ridicat pentru ca acestea să fie recunoscute. Această abordare prudentă a fost inversată în anii 2010, deoarece decizia din 2013 „Innoweb BV v Wegener ICT Media BV și Wegener Mediaventions” a consolidat pozițiile proprietarilor de baze de date și a condamnat reutilizarea datelor neprotejate în motoarele de căutare web.[22] Consolidarea și extinderea drepturilor de baze de date rămân un subiect controversat în reglementările europene, deoarece este parțial în contradicție cu angajamentul Uniunii Europene în favoarea economiei bazate pe date și a științei deschise.[22] Deși există câteva excepții pentru utilizări științifice și pedagogice, acestea sunt limitate în domeniul de aplicare (fără drepturi de reutilizare ulterioară) și nu au fost activate în toate statele membre.[22]

Proprietate

modificare

Problemele legate de drepturile de autor cu seturile de date științifice au fost complicate și mai mult de incertitudinile privind proprietatea. Cercetarea este în mare măsură o activitate de colaborare care implică o gamă largă de contribuții. Inițiative precum CRediT (Contributor Roles Taxonomy) au identificat 14 roluri diferite, dintre care 4 sunt legate în mod explicit de gestionarea datelor (analiza formală, cercetare, tratare și vizualizare a datelor).[23]

Au fost ridicate și drepturile suplimentare ale părților interesate externe, mai ales în contextul cercetării medicale. Începând cu anii 1970, pacienții au pretins o anumită formă de proprietate asupra datelor produse în contextul studiilor clinice, în special cu controverse importante privind „dacă subiecții de cercetare și pacienții dețin de fapt propriul țesut sau ADN”.[24]

Confidențialitate

modificare

Numeroase proiecte științifice se bazează pe colectarea de date despre persoane, în special în cercetarea medicală și științele sociale. În astfel de cazuri, orice politică de partajare a datelor trebuie să fie în mod necesar echilibrată cu păstrarea și protecția datelor cu caracter personal.[25]

Cercetătorii și, mai precis, cercetătorii principali au fost supuși obligațiilor de confidențialitate în mai multe jurisdicții.[25] În 2014, Agenția Europeană pentru Medicamente a introdus modificări importante în partajarea datelor din studiile clinice, pentru a preveni divulgarea tuturor detaliilor personale și a tuturor informațiilor relevante din punct de vedere comercial. O astfel de evoluție a reglementării europene „ar putea influența practica globală de partajare a datelor din studiile clinice ca date deschise”.[26]

Planurile și practicile de management al cercetării trebuie să fie deschise, transparente și confidențiale.

Licențe libere

modificare

Licențele deschise au fost cadrul legal preferat pentru a elimina restricțiile și ambiguitățile din definiția legală a datelor științifice. În 2003, Declarația de la Berlin a cerut o renunțare universală la drepturile de reutilizare a contribuțiilor științifice care cuprind în mod explicit „date brute și metadate”.[27]

Spre deosebire de dezvoltarea licențelor deschise pentru publicații care a avut loc într-un interval de timp scurt, crearea de licențe pentru date științifice deschise a fost un proces complicat. Drepturi specifice, cum ar fi drepturile de bază de date „sui generis” în Uniunea Europeană sau principii juridice specifice, precum distincția dintre fapte simple și compilarea originală, nu au fost anticipate inițial. Până în anii 2010, licențele libere ar putea adăuga, în mod paradoxal, mai multe restricții la reutilizarea seturilor de date, în special în ceea ce privește atribuțiile (ceea ce nu este obligatoriu pentru obiectele fără drepturi de autor precum „fapte brute”): „în astfel de cazuri, când nu există drepturi atașate la datele de cercetare, atunci nu există niciun motiv pentru licențierea datelor”.[28]

Pentru a evita problema, mai multe instituții precum Centrul de date Harvard-MIT⁠(d) au început să partajeze datele în domeniul public.[29] Această abordare asigură că nu se aplică niciun drept asupra articolelor fără drept de autor. Totuși, domeniul public și unele instrumente asociate, cum ar fi simbolul domeniului public⁠(d), nu sunt un contract legal definit corespunzător și variază semnificativ de la o jurisdicție la alta.[29] Introdusă pentru prima dată în 2009, licența Creative Commons Zero (sau CC0) a fost imediat luată în considerare pentru licențierea datelor.[30] De atunci a devenit „instrumentul recomandat pentru eliberarea datelor de cercetare în domeniul public”.[31] În conformitate cu principiile Declarației de la Berlin, aceasta nu este o licență, ci o renunțare, deoarece producătorul datelor „abandonează și renunță în mod deschis, complet, permanent, irevocabil și necondiționat la toate drepturile de autor și drepturile conexe”.

Abordările alternative au inclus proiectarea unei noi licențe libere pentru a clarifica atribuirea stivuirii specifice pentru drepturile bazelor de date. În 2009, Open Knowledge Foundation a publicat Open Database License, care a fost adoptată de proiecte online majore precum OpenStreetMap. Din 2015, toate licențele Creative Commons au fost actualizate pentru a corespunde seturilor de date, deoarece drepturile bazelor de date au fost anticipate în mod explicit în versiunea 4.0.[28]

  1. ^ en Spiegelhalter, D. Open data and trust in the literature. The Scholarly Kitchen. Retrieved 7 September 2018.
  2. ^ Wilkinson et al., 2016
  3. ^ Lipton, 2020, p. 19
  4. ^ Borgman, 2015, p. 18
  5. ^ Lipton, 2020, p. 59
  6. ^ a b Lipton, 2020, p. 61
  7. ^ en ARTICLE 29 — DISSEMINATION OF RESULTS — OPEN ACCESS — VISIBILITY OF EU FUNDING Arhivat în , la Wayback Machine., Draft of the H2020 Model Grant Agreement
  8. ^ National Academies, 2012, p. 1
  9. ^ Borgman, 2015, pp. 4–5
  10. ^ Pujol, Priego, Wareham, Romasanta, 2022, p. 220
  11. ^ Edwards et al., 2011, p. 669
  12. ^ a b Pujol Priego, Wareham, Romasanta, 2022, p. 224
  13. ^ Pujol Priego, Wareham, Romasanta, 2022, p. 225
  14. ^ a b Lipton, 2020, p. 127
  15. ^ Kerber, 2021, p. 1
  16. ^ a b c d e f Lipton, 2020, p. 119
  17. ^ Lipton, 2020, p. 122
  18. ^ a b Lipton, 2020, p. 123
  19. ^ Lipton, 2020, p. 126
  20. ^ Articolul 6, Directiva 2006/116/CE
  21. ^ Lipton, 2020, p. 124
  22. ^ a b c Lipton, 2020, p. 125
  23. ^ Allen, O’Connell, Kiermer, 2019, p. 73
  24. ^ Lipton, 2020, p. 130
  25. ^ a b Lipton, 2020, p. 138
  26. ^ Lipton, 2020, p. 139
  27. ^ en Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities, openaccess.mpg.de, accesat 2024-10-27
  28. ^ a b Lipton, 2020, p. 133
  29. ^ a b Lipton, 2020, p. 134
  30. ^ Schofield et al., 2009
  31. ^ Lipton, 2020, p. 132

Bibliografie

modificare
Rapoarte
  • en National Research Council (). A Question of Balance: Private Rights and the Public Interest in Scientific and Technical Databases (Raport). National Academies Press. Accesat în . 
  • en OECD (). OECD Principles and Guidelines for Access to Research Data from Public Funding (Raport). Paris: Organisation for Economic Co-operation and Development. Accesat în . 
  • en CCSDS (). Reference Model for an Open Archival Information System (OAIS) (Raport). p. 135. 
  • en European Commission (). Cost-benefit analysis for FAIR research data: cost of not having FAIR research data (Raport). LU: Office des publications de l'Union européenne. doi:10.2777/02999. Accesat în . 
  • en Astell, Mathias; Hrynaszkiewicz, Iain; Allin, Katie; Penny, Dan; Mithu Lucraft; Baynes, Grace; Springer Nature Admin (). Practical challenges for researchers in data sharing - Springer Nature survey data (anonymised) (Raport). Springer Nature. Accesat în . 
  • en Skinner, Katherine (). Mapping the Scholarly Communication Landscape: 2019 Census (Raport). Educopia Institute. 
  • en European Commission (). Horizon 2020 Annotated Model Grant A greements (Raport). European Commission. 
  • en Ficarra, Victoria; Fosci, Mattia; Chiarelli, Andrea; Kramer, Bianca; Proudman, Vanessa (). Scoping the Open Science Infrastructure Landscape in Europe (Raport). Accesat în . 
  • en ESFRI (). ESFRI Roadmap (PDF) (Raport). ESFRI. 
  • en Ross-Hellauer, Tony; Fecher, Benedikt; Shearer, Kathleen; Rodrigues, Eloy (). Pubfair: a framework for sustainable, distributed, open science publishing services (Raport). Accesat în . 
Articole din reviste
Cărți și teze de doctorat
  • en Bourne, Charles P.; Hahn, Trudi Bellardo (). A History of Online Information Services, 1963-1976. MIT Press. ISBN 978-0-262-26175-3. 
  • en Borgman, Christine L. (). Scholarship in the Digital Age: Information, Infrastructure, and the Internet. Cambridge, MA, USA: MIT Press. ISBN 978-0-262-02619-2. 
  • en Berners-Lee, Tim; Fischetti, Mark (). Weaving the Web: The Original Design and Ultimate Destiny of the World Wide Web by Its Inventor. Paw Prints. ISBN 978-1-4395-0036-1. 
  • en Bygrave, Lee A.; Bing, Jon (). Internet Governance: Infrastructure and Institutions. OUP Oxford. ISBN 978-0-19-956113-1. 
  • en Edwards, Paul N. (). A Vast Machine: Computer Models, Climate Data, and the Politics of Global Warming. Infrastructures. Cambridge, MA, USA: MIT Press. ISBN 978-0-262-01392-5. 
  • en National Research Council (). Uhlir, Paul E., ed. For Attribution: Developing Data Attribution and Citation Practices and Standards: Summary of an International Workshop. Washington, DC: The National Academies Press. ISBN 978-0-309-26728-1. Accesat în . 
  • en Gaillard, Rémi (). De l'Open data à l'Open research data: quelle(s) politique(s) pour les données de recherche ? (Teză). ENSSIB. 
  • en Hogan, A. (). Reasoning Techniques for the Web of Data. IOS Press. ISBN 978-1-61499-383-4. 
  • en Borgman, Christine L. (). Big Data, Little Data, No Data: Scholarship in the Networked World. Cambridge, MA, USA: MIT Press. ISBN 978-0-262-02856-1. 
  • en Briney, Kristin (). Data Management for Researchers: Organize, maintain and share your data for research success. Pelagic Publishing Ltd. ISBN 978-1-78427-013-1. 
  • en Regazzi, John J. (). Scholarly Communications: A History from Content as King to Content as Kingmaker. Rowman & Littlefield. ISBN 978-0-8108-9088-6. 
  • en Cox, Andrew; Verbaan, Eddy (). Exploring Research Data Management. Facet Publishing. ISBN 978-1-78330-280-2. 
  • en Davies, Tim; Walker, Stephen B.; Rubinstein, M.; Perini, F. (). Davies, Tim; Walker, Stephen B.; Rubinstein, Mor; Perini, Fernando, ed. The State of Open Data: Histories and Horizons. African Minds. doi:10.5281/zenodo.2668475. Accesat în . 
  • en Lipton, Vera (). Open Scientific Data: Why Choosing and Reusing the RIGHT DATA Matters. BoD – Books on Demand. ISBN 978-1-83880-984-3. 
  • en Tibor, Koltay (). Research Data Management and Data Literacies. Chandos Publishing. ISBN 978-0-323-86002-4. 
Alte surse

Vezi și

modificare

Legături externe

modificare