Znikające zasoby sieci czyli kto archiwizuje treści webu

Znikające zasoby sieci czyli kto archiwizuje treści webu

Jak wielki jest internet? Ogromny! Czy prawdą jest, że „to co zostało zamieszczone w internecie pozostanie w nim na zawsze”? Nie!


Trafiłam ostatnio na informację , że „przeciętna strona internetowa działa od 90 do 100 dni, a następnie ulega zmianom lub zostaje usunięta”. Na pewno każdy z nas nie raz trafił na zepsuty link, stronę która przestała istnieć, albo szukał tekstu, który na podstronie był, ale znikł. Podobnie jest z treściami zamieszczanymi w mediach społecznościowych – autorzy mogą je dowolnie usuwać czy edytować, więc i tu nie możemy być pewni, że teksty przez nas tam przeczytane, będą tam na zawsze.

Znikające zasoby sieci

Problem ten w codziennym użytkowaniu internetu może nie jest tak dotkliwy, ale odczują go Ci, co korzystają z literatury naukowej. Badacze często powołują się w swoich artykułach na źródła umieszczone w sieci, do których linkują. I tu – okazuje się – im starszy artykuł, tym więcej jest linków, które już nie działają. Wyczytałam u Bartłomieja Konopa, że „badania przeprowadzone w 2014 r. w Narodowym laboratorium w Los Alamos i na Uniwersytecie w Edynburgu pod kierownictwem Martina Kleina wykazały, że blisko ¼ przeanalizowanych artykułów z 2012 r. zawiera nieaktualne linki. W przypadku starszych artykułów procent dotknięty tym zjawiskiem jest większy, chociażby w bazie PubMed Central dla tekstów z 1997 r. wyniósł aż 80%”[1]. 80%! To bardzo dużo. Pewnie zaraz zapytacie – a kto będzie czytał takie stare artykuły? No cóż… są takie dziedziny wiedzy, w których faktycznie postęp idzie szybko do przodu i takie artykuły mają znaczenie tylko historyczne, ale są też takie (humanistyka chociażby), w których nie jest to tak istotne.

Archiwizacja webu

Mamy więc w sieci zasoby, które pojawiają się i znikają bezpowrotnie. Część z tym zasobów to materiały, które powinny być dostępne zawsze. Pojawia się więc pytanie, jak to zrobić? Tu z pomocą przychodzi inicjatywa archiwizacji webu (sieci), która gromadzi, zabezpiecza i zachowuje zasoby sieci.

„Archiwizacja Webu to proces gromadzenia części zasobów World Wide Web (WWW) w celu zachowania ich dla przyszłych badaczy, historyków i opinii publicznej. Sama sieć WWW i wykorzystywany do komunikacji w niej protokół HTTP nie posiadają mechanizmów samoarchiwizowania przesyłanych zasobów, dlatego ważne jest istnienie inicjatyw i instytucji, które selekcjonują, archiwizują i udostępniają archiwalne zbiory witryn internetowych. Metody archiwizacji Webu oraz same archiwalne zbiory WWW mogą być wykorzystywane w badaniach naukowych, pracy dziennikarskiej, działalności organizacji pozarządowych i twórczości artystycznej. Archiwa Webu pozwalają również na utrzymanie ważności linków umieszczanych w przypisach do prac naukowych oraz wyrokach sądowych i ich uzasadnieniach.”[2]

Gdzie szukać archiwalnych stron www

Niestety nie ma jednego miejsca, które archiwizuje wszystko.

Największym do tej pory miejscem, które zajmuje się archiwizacją stron www jest Internet Archive – na pewno wam znany. Jak działa udostępniane tam narzędzie Wayback Machine pisałam już w poście „Jak sprawdzić starą wersję strony”.

Oprócz tego przedsięwzięcia na całym świecie powstają ciągle inicjatywy, które mają na celu zapisywanie tego, co znika. W tej chwili jest ich na świecie niemal 100. Projekty archiwizacyjne podejmowane są przez różne biblioteki narodowe, archiwa czy instytucje non-profit. Różnią się one między sobą zakresem gromadzonego materiały i zasięgiem. Dlaczego? Bo nie zapisują wszystkiego (co nie udaje się robić nawet Internet Archive) ale zazwyczaj kolekcjonują tylko jakiś fragment sieci – skupiają się np. na wybranej dziedzinie czy temacie, kolekcjonują strony z domen narodowych, zapisują zasoby powiązane z jakimś projektem naukowym, archiwizują kilka wybranych/wyselekcjonowanych stron.

Listę archiwów webu znajdziecie na Wikipedii pod hasłem List of Web archiving initiatives. Polecam też artykuł „Archiwizacja webu w Europie – narodowe archiwa sieci”, gdzie możecie poczytać więcej o poszczególnych inicjatywach.


[1] Konopa, B. (2018). Archiwa Internetu jako nowe bazy źródłowe. Archiwa-Kancelarie-Zbiory, (9 (11)), 49-62.

[2] https://webarch.uw.edu.pl/zasoby/archiwizacja-webu/

0 0 votes
Article Rating
Subscribe
Powiadom o
guest
2 komentarzy
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
Michał

Hej, ostatni link, który zamieściłaś, już nie działa… Potwierdza to główną tezę artykułu 😉