Zarządzanie danymi badawczymi

Proces gromadzenia, przetwarzania i przechowywania danych oraz późniejsze ich udostępnianie jest procesem, który należy odpowiednio rozplanować, aby móc prawidłowo tymi danymi zarządzać. W tym celu należy sporządzić Plan Zarządzania Danymi (ang. Data Management Plan, DMP) który określa, w jaki sposób dane badawcze powstałe w trakcie realizacji projektu badawczego mają być zarządzane, zarówno w czasie jego trwania, jak i po jego zakończeniu.

Narzędzia do tworzenia Data Management Plan:

Narodowe Centrum Nauki od czerwca 2019 r. obliguje wszystkich wnioskodawców do wypełnienia sekcji wniosku „Plan Zarządzania Danymi”. Jednocześnie na swojej stronie przedstawia wytyczne i podpowiedzi co do sposobu uzupełniania Planu Zarządzania Danymi w języku polskim oraz w wersji angielskiej.

Przy tworzeniu Planu Zarządzania Danymi w procesie składania wniosku aplikacyjnego o granty NCN zalecamy wskazywanie Polskiej Platformy Medycznej jako repozytorium danych badawczych.


Krótka instrukcja wypełnienia PLANU ZARZĄDZANIA DANYMI we wniosku projektowym


Opracowanie:
Izabela Czeszek, Justyna Zawada
Dział Informacji Naukowej i Promocji,
Biblioteka Uniwersytetu Medycznego im. Piastów Śląskich we Wrocławiu
Listopad 2024

Informacje wstępne

Plan zarządzania danymi to krótki opis tego, w jaki sposób będą gromadzone, opracowywane, przetwarzane, przechowywane i udostępniane dane badawcze wytworzone lub wykorzystane w projekcie (1 – 2 zdania na sekcję). To jest plan, który może być modyfikowany w trakcie trwania projektu naukowego. Informacje na temat udostępnienia wytworzonych podczas projektu danych badawczych i powiązanych z nimi publikacji należy zamieścić w raporcie rocznym. Wszystkie zachodzące zmiany, czyli stan faktyczny po zakończeniu prowadzonego projektu należy wykazać w raporcie końcowym.

Przydatne kontakty:

Infrastruktura informatyczna UMW:

  • Zasób sieciowy – tworzony przez CI na prośbę naukowca; może być udostępniony różnym osobom lokalnie w sieci UMW ;
  • Chmura uczelniana Cloud – każdemu pracownikowi UMW przysługuje 2 GB przestrzeni dyskowej w chmurze; można prosić o jej zwiększenie; są automatycznie tworzone kopie zapasowe przechowywanych plików;
  • Chmura zewnętrzna One Drive – każdemu pracownikowi i studentowi przysługuje 100 GB przestrzeni dyskowej w chmurze One Drive; są automatycznie tworzone kopie zapasowe przechowywanych plików.
  • Więcej informacji.

Repozytorium instytucjonalne UMW:

UMW posiada infrastrukturę przygotowaną do deponowania danych badawczych będących wynikiem prowadzonych badań naukowych. Jest to Repozytorium Polskiej Platformy Medycznej UMW (Repozytorium PPM-UMW). Repozytorium PPM-UMW nadaje zdeponowanym zestawom danych badawczych unikalny cyfrowy identyfikator DOI, spełnia warunki zasad FAIR (Findable, Accesible, Interoperable, Reusable) i jest indeksowane w międzynarodowych rejestrach repozytoriów, m.in. Re3data.org.

1. Opis danych oraz pozyskiwanie lub ponowne wykorzystanie dostępnych danych
1.1. W jaki sposób będą pozyskiwane lub wytwarzane nowe dane lub ponownie wykorzystywane dane już istniejące?
  • Należy wskazać, czy w projekcie będą wytworzone nowe dane badawcze, czy będą użyte dane wtórne (już istniejące).
  • W przypadku nowych danych należy:
    • określić, w jaki sposób dane będą pozyskiwane, np. podczas wywiadów, obserwacji, badań eksperymentalnych, pomiarów, etc… W przypadku badań eksperymentalnych prowadzonych z udziałem ludzi należy rozważyć kontakt z Komisją Bioetyczną;
    • określić, jaki to będzie rodzaj danych, np. tekstowe (notatki, transkrypcje), liczbowe, pomiarowe, statystyczne, kwestionariusze ankiet, obrazy, szkice, zdjęcia (RTG, TK, USG, z wywiadów), próbki, kody, etc.;
    • wskazać wykorzystaną aparaturę i oprogramowanie;
    • wskazać, czy pozyskane dane będą wymagały digitalizacji, np. dane analogowe lub uzyskane czy wytworzone w wersji papierowej takie jak mapy, fotografie, notatki.
  • W przypadku danych wtórnych należy:
    • wskazać źródło ich pochodzenia,
    • wskazać, na jakich zasadach (warunkach) będzie odbywało się ich wykorzystanie (rodzaj licencji)
1.2. Jakie dane (tj. rodzaje, formaty, objętości) będą pozyskiwane lub wytwarzane w projekcie?
  • Należy wskazać rodzaje danych wytwarzanych w projekcie, np. tekstowe, liczbowe, dane sekwencjonowania, dane pomiarowe, dane statystyczne, wyniki ankiet, obrazy, zdjęcia (np. RTG, TK, USG), próbki fizyczne, kody, zawartość baz danych.
  • Należy wskazać otwarte formaty wykorzystane do zapisu danych na potrzeby ich przechowywania, np.:
    • pliki tekstowe 🠊.txt, .rtf, .odt;
    • arkusze kalkulacyjne 🠊.csv;
    • ankiety online 🠊 .html;
    • nagrania 🠊 .wav, .aif, .flac .wv, .apl, .mp3;
    • zdjęcia, obrazy 🠊 .bmp, .gif, .jpg, .png;
    • bazy danych 🠊 .spv, .dbs;

    lub formaty charakterystyczne dla plików z urządzeń pomiarowych / badawczych, np. mikroskopu.

  • Wskazać szacunkową objętość danych w MB/GB/TB (wartość ta może ulec zmianie w trakcie realizacji projektu).
2. Dokumentacja i jakość danych
2.1. Jakie metadane i dokumentacja (np. metodologia oraz sposoby pozyskiwania i organizacji danych) będą towarzyszyć danym w projekcie?

Dane badawcze wytworzone w projekcie finansowanym ze środków publicznych będą ostatecznie udostępnione publicznie w otwartym repozytorium, dlatego istotne jest spisanie metadanych i prowadzenie dokumentacji, które w przyszłości umożliwią ponowne wykorzystanie tych danych.

Metadane – informacje (dane), które opisują dane badawcze w taki sposób, aby w przyszłości było możliwe ich odczytanie zarówno przez ludzi, jak i komputery (maszyny).

  • Należy wskazać, jakie metadane zostaną spisane, np.: typ danych, autor/autorzy, trwały identyfikator cyfrowy naukowca (np. ORCID), tytuł zestawu danych badawczych, tytuły plików, słowa kluczowe, streszczenie, rok powstania, itp.

Dokumentacja – powinna zawierać informacje pozwalające na zrozumienie oraz właściwą interpretację zamieszczonych danych. Taką dokumentację może stanowić plik tekstowy, tzw. plik README.

  • Należy wskazać, jakie informacje o wytwarzanych danych będą gromadzone, np.: opis projektu; opis metodologii badań; kontekst badań (sposób interpretacji badań); legenda skrótów zastosowanych w plikach z danymi.
  • Należy wskazać sposoby organizacji folderów i plików.
  • Warto na tym etapie podjąć decyzję o wyborze repozytorium do udostępnienia danych badawczych z projektu oraz sprawdzić, jaki standard metadanych jest w nim stosowany i już zgodnie z tym standardem prowadzić dokumentację w trakcie projektu.

Jeśli dane badawcze będą deponowane w Repozytorium PPM-UMW: – w formularzu deponowania danych będą wymagane następujące metadane: typ danych, autor/autorzy, osoba do kontaktu, język danych badawczych, język metadanych, tytuł zestawu danych badawczych, słowa kluczowe, streszczenie, rok powstania, plik README; – dodatkowo będą potrzebne informacje o powiązanym projekcie wraz z numerem projektu oraz o powiązanych publikacjach i innych danych badawczych powiązanych z danymi badawczymi gromadzonymi w projekcie. Jeżeli takie istnieją; – wprowadzone metadane zostaną zapisane w standardzie Dublin Core.

2.2. Jakie planują Państwo zastosować środki kontroli jakości?
  • Należy wskazać, jakie środki kontroli jakości zostaną zastosowane w trakcie pozyskiwania danych, np.:
    • kalibracja sprzętu przed każdym cyklem pozyskiwania danych;
    • powtórzenia badań, np. przez dwoje różnych uprawnionych badaczy;
    • system sprawdzania poprawności wprowadzania uzyskanych danych, np. jedna osoba wprowadza, druga sprawdza lub wprowadzone dane sprawdzają dwie niezależne osoby.
    • inne sposoby kontroli typowe dla danej dyscypliny naukowej.
  • Należy wskazać, jakie zabezpieczenia przed nieuprawnioną modyfikacją danych będą stosowane.
3. Przechowywanie i tworzenie kopii zapasowych podczas badań
3.1. W jaki sposób w trakcie projektu będą przechowywane dane i metadane? W jaki sposób będą tworzone ich kopie zapasowe?

Zaleca się stosowanie zasady 3-2-1, czyli: 3 kopie na 2 różnych nośnikach, a 1 nośnik w innej lokalizacji geograficznej. (Informacje wstępne – Infrastruktura informatyczna UMW)

  • Należy wskazać, gdzie będą przechowywane dane w trakcie projektu, np.: w bazie dostępnej po logowaniu z dostępem z komputera zabezpieczonego hasłem, zlokalizowanego w zamkniętym i chronionym laboratorium na uczelni; na chmurze uczelnianej, gdzie tworzone są automatycznie kopie zapasowe; na chmurze One Drive (narzędzie zewnętrzne).
  • Należy wskazać, czy i jak często będą tworzone kopie zapasowe danych i metadanych na komputerze, np.: 1x dziennie będzie tworzona kopia zapasowa i przeprowadzana aktualizacja danych do ich najnowszej wersji.
  • Należy wskazać, czy będą tworzone automatyczne kopie zapasowe w rozwiązaniach chmurowych.
3.2. W jaki sposób zostanie zapewnione bezpieczeństwo i ochrona danych wrażliwych w okresie trwania projektu?

W zakresie zapewnienia bezpieczeństwa i ochrony danych wrażliwych zalecana jest konsultacja np. z IODO oraz CI.

  • Jeśli w ramach projektu nie będą gromadzone i przetwarzane dane wrażliwe, należy to napisać w planie.
  • Należy wskazać, w oparciu o jakie przepisy / zarządzenia funkcjonujące na uczelni będą przechowywane dane wrażliwe, np.: zgodnie z Polityką ochrony danych osobowych Uniwersytetu Medycznego im. Piastów Śląskich we Wrocławiu (Zarządzenie nr 93/XV R/2018 Rektora Uniwersytetu Medycznego we Wrocławiu z dnia 1 sierpnia 2018 r., zał. nr 1, z późniejszymi zmianami) oraz zgodnie z wytycznymi IODO i CI.
  • Należy wskazać, w jaki sposób będą odzyskiwane dane utracone w wyniku incydentu, np.: poprzez skorzystanie z kopii zapasowej tworzonej przez infrastrukturę chmurową.
4. Wymogi prawne, kodeksy postępowania
4.1. Jeżeli będzie miało miejsce przetwarzanie danych osobowych, w jaki sposób zostanie zapewniona zgodność z przepisami dotyczącymi danych osobowych oraz ich ochrony?
  • Jeśli w ramach projektu nie będą gromadzone i przetwarzane dane osobowe, należy to napisać.
  • Jeśli w ramach projektu będą wykorzystywane i przetwarzane dane osobowe:
    • zalecany jest kontakt z IODO;
    • należy wskazać, czy dane będą gromadzone i przetwarzane zgodnie z zasadami RODO – Ogólne rozporządzenie o ochronie danych, Polityka ochrony danych osobowych Uniwersytetu Medycznego im. Piastów Śląskich we Wrocławiu (Zarządzenie nr 93/XV R/2018 Rektora Uniwersytetu Medycznego we Wrocławiu z dnia 1 sierpnia 2018 r., zał. nr 1.; z późniejszymi zmianami);
    • należy wskazać, czy uczestnicy badania zapoznali się z zasadami RODO i Polityką ochrony danych osobowych uczelni, i czy prowadzący badanie uzyskali świadome pisemne zgody na udział uczestników w badaniu oraz przetwarzanie ich danych;
    • należy wskazać, czy przed otwartym udostępnieniem danych zostaną one zabezpieczone poprzez anonimizację, pseudonimizację lub szyfrowanie (należy pamiętać, że klucz do szyfru powinien się znajdować w innej lokalizacji niż same dane);
    • należy wskazać, kto będzie uprawniony do dostępu do danych wrażliwych i na jakich zasadach.
4.2. W jaki sposób planują Państwo zapewnić zgodność z innymi przepisami, takimi jak prawa własności intelektualnej i prawa własności? Jakie przepisy znajdują w tym przypadku zastosowanie?
  • Należy wskazać, kto będzie autorem – właścicielem praw autorskich i praw własności intelektualnej do danych pozyskanych w toku badań.
  • Jeśli dane pochodzą od osób trzecich, należy określić, czy istnieją jakiekolwiek ograniczenia związane z ponownym wykorzystaniem tych danych.
  • Należy wskazać, na jakiej licencji będą udostępniane pozyskane dane.
    • Zaleca się stosowanie licencji wymaganych przez grantodawcę – w przypadku NCN będą to licencje Creative Commons CC 0 lub CC BY . Więcej o licencjach.
5. Udostępnianie i długotrwałe przechowywanie danych
5.1. Kiedy i w jaki sposób będą udostępniane dane z projektu? Czy istnieją ewentualne ograniczenia i zakazy dotyczące ich udostępniania?
  • Należy wskazać, kiedy planowane jest udostępnienie danych: czy jeszcze podczas trwania projektu, czy po jego zakończeniu? NCN dopuszcza publikację danych najpóźniej w terminie zbieżnym z publikacją artykułu opartego na tych właśnie danych.
  • Należy wskazać, w jakim repozytorium zostaną udostępnione dane z projektu i przez jaki okres czasu będą w nim przechowywane (NCN wymaga min. 10 lat).
  • Jeśli będzie zastosowane embargo, należy określić jego czas i uzasadnić przyczyny.
  • Należy wskazać ew. ograniczenia w udostępnianiu danych, które mogą wynikać np. z: planowanej komercjalizacji, przyczyn prawnych, poufności danych, braku zgody uczestników badania – jeśli istnieją, należy je wskazać.
  • Zaleca się, by udostępnianie było zgodne z zasadą:
    • Dane powinny być tak otwarte, jak to możliwe i tak zamknięte, jak to konieczne.
5.2. Jak będzie wyglądać selekcja danych przeznaczonych do utrwalenia i gdzie będą one długoterminowo przechowywane (np. w repozytorium danych, archiwum)?
  • Należy wskazać, w jaki sposób będzie prowadzona selekcja danych oraz podjęta decyzja, które z tych danych zostaną zachowane, a które zniszczone, oraz które zostaną udostępnione.
  • Należy pamiętać, że wymagane jest upublicznienie danych będących podstawą publikacji stanowiącej rezultat projektu.
  • Należy wskazać, gdzie będą przechowywane dane nie przeznaczone do udostępnienia publicznego.
  • Należy wskazać, w jakim repozytorium zostaną udostępnione dane z projektu i czy przestrzega ono zasad FAIR Data.

Repozytorium PPM-UMW umożliwia lokalizację zdeponowanych danych poprzez unikalny cyfrowy identyfikator DOI i spełnia warunki zasad FAIR.

5.3. Jakie metody lub oprogramowanie umożliwiają dostęp do danych i korzystanie z danych?
  • Należy wskazać, jakie zostaną zastosowane formaty (standardowe lub otwarte) do przechowywania danych przez zadeklarowany okres czasu.
  • Należy wskazać, czy odczytanie i ponowne wykorzystanie danych będzie wymagało specjalistycznych narzędzi / oprogramowania.
  • Przy udostępnianiu danych badawczych z projektów finansowanych ze środków publicznych należy dążyć do zastosowania formatów otwartych, np.:
    • pliki tekstowe
    • arkusze kalkulacyjne
    • ankiet online
    • nagrania
    • zdjęcia, obrazy
    • bazy danych
5.4. W jaki sposób zagwarantują Państwo stosowanie unikalnego i trwale przypisanego identyfikatora (takiego jak cyfrowy identyfikator dokumentu elektronicznego (DOI) dla każdego zbioru danych?

Unikalny cyfrowy identyfikator jest to identyfikator przypisany na stałe do danego dokumentu lub zestawu danych badawczych, umożliwiający lokalizację tego dokumentu lub zestawu danych wraz z przypisanymi im metadanymi, śledzenie cytowań oraz ponowne wykorzystanie.

Unikalne cyfrowe identyfikatory są nadawane zestawom danych badawczych w repozytoriach danych badawczych.

  • Należy wskazać, czy udostępnionym danym badawczym będzie trwale przypisany unikalny cyfrowy identyfikator, np. DOI (warto to wcześniej sprawdzić w wybranym otwartym repozytorium).
  • Jeśli danym będą przypisane inne trwałe cyfrowe identyfikatory, należy wskazać jakie.

W Repozytorium PPM-UMW zdeponowanym zestawom danych badawczych jest nadawany unikalny cyfrowy identyfikator DOI.

6. Zadania związane z zarządzaniem danymi oraz zasoby
6.1. Kto będzie odpowiadał za zarządzanie danymi (tj. kto będzie ich opiekunem)?

Opiekunem danych może być osoba (osoby) lub instytucja, która będzie się zajmować zarządzaniem danymi przez dłuższy czas – najpierw podczas procesu wytwarzania danych, ich gromadzenia, dbania o ich jakość i bezpieczeństwo, opracowywania, tworzenia kopii zapasowych i przechowywania (archiwizacji), a następnie po przekazaniu danych do repozytorium (archiwizacja długoterminowa, udostępnianie).

  • Należy wskazać, kto będzie odpowiedzialny za dane badawcze w trakcie trwania projektu i w jakim zakresie, np. kierownik projektu lub inny członek zespołu projektowego lub data steward.
  • Należy wskazać, kto będzie odpowiedzialny za zarządzanie danymi po zakończeniu projektu np. data steward.
  • W przypadku projektów partnerskich należy zaplanować podział kompetencji związanych z kompleksowym zarządzaniem danymi badawczymi.
6.2. Jakie zasoby zostaną przeznaczone na cele zarządzania danymi i zagwarantowanie przestrzegania zasad FAIR?
  • Należy wskazać, czy będzie konieczne zabezpieczenie zasobów (osób, czasu, sprzętu lub oprogramowania) i środków finansowych na przechowywanie i długotrwałą archiwizację danych badawczych oraz zarządzanie danymi podczas trwania projektu i po jego zakończeniu oraz zagwarantowanie przestrzegania zasad FAIR przy udostępnianiu danych.
  • Należy wskazać szacowane koszty oraz źródło finansowania np. 2% kosztów pośrednich przeznaczonych na ten cel w projekcie.