OPEN DATA

V posledních letech je na mezinárodní i národní úrovni stále více prosazován nejen otevřený přístup k publikačním výstupům, ale i k výzkumným datům. Pojmem otevřená data označujeme výzkumná data, která jsou volně dostupná online a mohou být dále využívána, upravována a sdílena za jakýmkoli účelem či v nových souvislostech. Ukládání výzkumných dat v otevřeném přístupu maximalizuje jejich využití a zajišťuje kvalitu výsledků výzkumu. Open data mohou přispět ke zvýšení transparentnosti a efektivnosti práce, kdy nebudou stejné výzkumy prováděny znovu, a to i v případě výsledků negativních výzkumů.

Otevřená data mohou zahrnovat netextový materiál jako mapy, genomy, chemické sloučeniny, matematické vzorce, lékařská data atd. V širším slova smyslu se primární data shromažďují ve formě faktů, pozorování, obrázků, výsledků počítačových programů, záznamů, měření a zkušeností, sekundární analýzy, vizualizací, modelů, analytických nástrojů, sbírkách objektů nebo produktů. Data mohou mít číselnou, textovou, obrazovou nebo hmatatelnou podobu. Data mohou být zpracovaná, očištěná nebo v surovém stavu a uložena v libovolném formátu a na libovolném médiu. Open data jsou součástí širšího konceptu tzv. otevřené vědy. Evropská unie financovala dvouletý projekt FOSTER, který má pomoci vědcům přejít na open access. FOSTER připravuje výukové materiály a kurzy týkající se otevřeného přístupu.

Při sdílení dat se vždy řídíme principem As open as possible, as closed as necessary – otevřená jak jen možno, uzavřená jak jen nutno. Není možné vždy sdílet všechna data. Některá výstupy mohou např. obsahovat osobní a jiné citlivé údaje, jejichž zveřejnění by mohlo ohrozit např. bezpečnost, obchodní tajemství, patent, autorská práva apod. I taková data je nicméně záhodno bezpečně uložit a zpřístupnit veřejně alespoň formou metadat. Národní technická knihovna vydala Obecné doporučení pro metadatový popis výzkumných výstupů a výzkumných dat, které může autorům pomoci při popisu výzkumných dat.

Tvůrci dat často nevědí, že je vhodné stanovit podmínky pro vlastnictví, licencování a opětovné použití dat, což často vede ke znemožnění využití dat pro další účely. Jedním ze způsobu pro správu a ochranu dat je tzv. Data Management Plan. Tento plán, jak budou výzkumná data generována, organizována, sdílena a zabezpečena požaduje také projekt Horizont Evropa. Více informací o ukládání otevřených výzkumných dat v programu Horizont Evropa

Příklad otevřených dat ve vědě:

Zveřejňování dat je vyžadováno také některými časopisy (např. Nature, The American Naturalist) či nakladateli (Public Library of Science). Datovou politiku časopisů lze dohled přes Nature portfolio.

Otevřená data jsou také podporována v rámci Open data day.

SDÍLENÍ DAT

Sdílená data by měla odpovídat tzv. FAIR principům, které definují 4 základní kritéria, která by měla data splňovat. Měla by být: dohledatelná (Findable), dostupná (Accessible), interoperabilní (Interoperable) a opětovně využitelná (Reusable). Tyto principy byly definovány již v roce 2016 v článku The FAIR Guiding Principles for scientific data management and stewardship.

1. Vyhledatelnost (to be Findable)

Pokud mají být data opětovně využitelná, pak je třeba zajistit, že je jak lidé, tak stroje budou moci najít. Pro tento účel jsou klíčová strojově čitelná metadata.

F1. (meta)datům je přiřazen jedinečný a perzistentní identifikátor (např. DOI, handle)
F2. data jsou popsána dostatečnými metadaty
F3. (meta)data jsou registrována nebo indexována v prohledávatelných zdrojích
F4. metadata specifikují identifikátor

2. Dostupnost (to be Accessible)

K datům by měl být zajištěn otevřený přístup, ideálně prostřednictvím repozitáře. Není – li možné zajistit otevřený přístup k vědeckým datům, pak by měla být volně přístupná alespoň metadata.

A1. (meta)data lze získat pomocí jejich identifikátorů při využití standardních komunikačních protokolů (API)
A1.1 protokol je otevřený, zdarma k dispozici a univerzálně použitelný
A1.2 protokol umožňuje v případě potřeby autentizaci a autorizaci
A2. metadata jsou dostupná i v případě, že data samotná již nejsou k dispozici

3. Interoperabilita (to be Interoperable)

Pro integraci s jinými datasety, pak je vhodné použít standardizované výrazy k popisu dat.

I1. (meta)data používají pro reprezentaci znalostí formální, dostupný, sdílený a široce aplikovatelný jazyk
I2. (meta)data používají slovníky, které se řídí zásadami FAIR
I3. (meta)data obsahují odkazy na další (meta)data

4. Opětovná využitelnost (to be Reusable)

Primárním cílem FAIR principů je zvýšit znovuvyužitelnost vědeckých dat.  K dosažení tohoto cíle je důležité, aby byla data dostatečně popsaná a sdílená pod otevřenou licencí (např. Creative Commons), aby uživatelé dat věděli, jak data vznikla, co popisují a jak s nimi mohou nakládat.

R1. (meta)data mají množství přesných a relevantních atributů
R1.1 (meta)data jsou zveřejněna pod jasnou a dostupnou licencí
R1.2 (meta)data jsou spojena se svým původem
R1.3 (meta)data splňují standardy vědecké komunity pro daný obor

OA_DATA

Zdroj: Foster Open Science (Assessing the FAIRness of data | fosteropenscience.eu)

DATA MANAGEMENT PLAN

Jedním ze způsobu pro správu a ochranu dat je tzv.Data Management Plan. Tento dokument popisuje celý životní cyklus výzkumných dat. Vyobrazuje, jak budou výzkumná data generována, organizována, sdílena a zabezpečena. Jedná se o průběžně aktualizovaný dokument reflektující, co se s daty skutečně dělo a bude dít, nejen po celou dobu trvání výzkumu, ale i po jeho skončení.

Základní otázky, které DMP řeší, jsou: 

  • Jaká data budou v rámci projektu generována a následně sbírána a uchovávána?
  • Zda a případně jak budou tato data zpřístupňována pro ověření a znovuvyužití? Pokud nemohou být data zpřístupněna, uvedeného vysvětlení.
  • Jaké standardy budou použity pro uložení dat?
  • Jak a kde budou data spravována a uchovávána?

Přínosy DMP:

  • možnost předvídat potenciální problémy,
  • snížení rizika duplicitní práce, ztráty dat a narušení bezpečnosti,
  • zajištění přesnosti, úplnosti a spolehlivosti dat,
  • pomoc při sdílení dat, zlepšení komunikace s uvedením konkrétních osob zodpovědných za jednotlivé úkony v procesu práce s daty,
  • včasné zhodnocení potřebného vybavení a podpory,
  • zajištění kontinuity dlouhodobých procesů a zajištění zvýšení integrity výzkumu v případě personálních změn ad.

V současnosti již lze využít při psaní DMP doporučené šablony nebo některý z nástrojů pro jeho tvorbu:

  • Obecná šablona DMP (bilingvní šablona Plánu pro správu dat vychází z templatu (vzoru) pro program Horizont Evropa
  • Data Stewardship Wizard (nástroj od ELIXIR, pomáhá výzkumným pracovníkům pochopit, co je potřeba pro správu dat orientovanou na FAIR principy, a sestavit vlastní Plán pro správu dat)
  • DMPonline (nástroj podporující tvorbu projektových DMP, včetně jejich uložení)
  • ARGOS (online nástroj pro DMP)

Data_management_plan

DATOVÉ REPOZITÁŘE

Vědecká data zpravidla ukládáme do datových repozitářů nebo do datových časopisů. Datové časopisy publikují recenzované, tzv. datové články. Datové články se zaměřují na popis určitých volně dostupných datasetů, na rozdíl od běžných článků neobsahují žádnou formu interpretace ani diskuze. 

Datové repozitáře jsou oborové, institucionální nebo univerzální. Vhodný repozitář lze nejlépe dohledat přes registr datových repozitářů Re3data nebo pomocí databáze otevřených repozitářů OpenDOAR. Při výběru vhodného repozitáře pro ukládání dat by měl být vždy preferován oborový repozitář, protože může nabídnout oborově specifický metadatový popis a doplňkové funkce. Pokud takový není k dispozici, lze data ukládat do institucionálního repozitáře, případně do některého z univerzálních repozitářů jako je Zenodo, Dryad nebo Národní repozitář. Ten je v současné době v pilotním provozu, avšak do budoucna by měl fungovat jako jedno z hlavních úložišť výzkumných dat v ČR.

Je vhodné brát zřetel na to, zda námi vybraný repozitář splňuje tato kritéria:

  • poskytuje otevřený přístup,
  • je důvěryhodný případně i certifikovaný,
  • přiděluje perzistentní identifikátor (např. DOI),
  • umožňuje mít úvodní stránku opatřenou metadaty,
  • uvádí, za jakých podmínek je možné data používat – uděluje licenci,
  • umožňuje aktualizovat verze datasetů apod.

Bezpečné nakládání s daty

Autoři by při ukládání, sdílení a přenosu dat měli být obezřetní. Při použití přenosných médií by autoři neměli disk s citlivými daty nikomu půjčovat, ponechávat jej volně k dispozici, ani na něj spoléhat jako na jediné úložiště dat. Při používání zaměstnaneckých počítačů je vhodné omezit přístup úzkému okruhu uživatelů. Opatrnost je na místě také při užívání mailových přloh, cloudového prostředí, sdílených úložišt apod.

Vhodné je data zabezpečit silným heslem, které autor nesděluje nezainteresovaným osobám. Vhodné je zvolit heslo, které není používano pro žádné další zabezpečení, a je vhodné jej změnit, pokud se autor domnívá, že bylo prolomeno. 

OPEN DATA V PROJEKTECH HORIZON EUROPE

Program Horizont Evropa (HE) motivuje své příjemce, aby v projektech praktikovali co nejširší škálu principů a nástrojů otevřené vědy. Podmínky, které jsou pevně stanovené v čl. 17 a Příloze 5 Grantové dohody, a které příjemci projektů HE musí dodržet, se týkají otevřeného přístupu nejen k recenzovaným publikacím, ale i výzkumným datům. Poplatky nebo náklady spojené se správou dat mohou být způsobilým nákladem projektu HE.

Příjemci grantu jsou, kromě dodržení FAIR principů, rovněž povinni:

1. Vytvořit plán správy dat (data management plan, DMP)

  • První verzi DMP řešitelé standardně odevzdávají jako deliverable již v 6. měsíci implementace projektu.
  • Plán by měl mj. popsat, jaký typ dat bude vznikat nebo využit, jejich organizaci a správu, ale také přístup k datům, sdílení nebo jejich případné vymazání v průběhu i po skončení projektu.
  • Šablona pro DMP je k dispozici na portálu FTO v sekci Reference documents (a dále podsekci Templates & forms → Project reporting templates)

2. Uložit data v důvěryhodném repozitáři

  • vhodný repozitář lze dohledat např. přes registr datových repozitářů Re3data, pomocí databáze otevřených repozitářů OpenDOAR, případně skrze rozcestník Repository Finder 
  • využít lze rovněž univerzální repozitář Zenodo
  • zvolený repozitář by měl poskytnout informace nebo nástroje, které jsou nezbytné pro případnou validaci výzkumných dat

3. Data musí být v repozitáři zpřístupněná v otevřeném režimu pod licencí CC BY (nebo jejím ekvivalentem)

  • Metadata k výzkumným datům musí být stejně jako v případě publikací zveřejněná pod licencí CC 0 nebo jejím ekvivalentem a měla by obsahovat informace minimálně o datasetu, tj. popis dat, datum a místo uložení dat, autory a embargo; o grantu HE; název grantu, jeho akronym a číslo; licenční podmínky; perzistentní identifikátory datasetu, autorů a autorek a pokud je to možné, identifikátory zapojených organizací a souvisejících publikací.