Na pewno czytałeś już niejeden fantastyczny artykuł o tajemnych zasobach internetu albo oglądałeś grafikę góry lodowej, która ilustruje to, co w głębiach sieci można znaleźć. Twoja ciekawość wtedy sięgnęła zenitu, a pragnienie odkrycia ukrytych zasobów było coraz większe. Niestety, w obu przypadkach dałeś się nabić w butelkę. Z zasobów deep web już częściowo (choć nieświadomie) korzystasz, a grafika góry lodowej nie do końca jest zgodna z rzeczywistością.
Ukryty, niewidzialny, głęboki – to słowa, które wzbudzą zainteresowanie każdego czytelnika. W połączeniu ze słowem internet określają takie zasoby, które nie są dostępne dla każdego. Te określenia to kalki z angielskiego, gdzie pojawiają się sformułowania deep web, hidden web czy invisible web. Masz wtedy poczucie, że to jakaś wiedza tajemna, skarb templariuszy i dobra ukryte przed zwykłym człowiekiem. Ale czy to na pewno prawda?
Nie pamiętam, kto pierwszy użył porównania zasobów internetowych do góry lodowej, ale przekonanie o ich „warstwowej” strukturze nie jest do końca prawdziwe. Nie musimy „kopać” głębiej, ani odsłaniać kolejnych tajemnych warstw, by wyszukiwać coś w internecie. Prawdą natomiast jest, że nie do wszystkiego będziemy mieć dostęp. Jak więc naprawdę wyglądają zasoby sieci?
==========
Jaki rozmiar ma internet i co widać w Google?
Wszystko to, co możesz znaleźć dzięki wyszukiwarkom, to tak zwany internet powierzchniowy – surface web. Wyszukiwarki korzystając z robotów przeczesują internet i zapisują odkryte przez siebie strony w ogromnych archiwach. Znajdują i zapisują strony, pliki, dane te, które są w stanie rozpoznać i te, które są dla nich ważne (algorytmy). Ze względu na algorytmy właśnie i techniczne ograniczenia wyszukiwarki nie obejmują całej sieci, tylko jakiś jej wycinek (każda wyszukiwarka może w tym względzie się od siebie różnić).
Co znajdziesz w wyszukiwarkach? Wszystkie te strony, do których docierasz bez kłopotu i dostęp do nich nie jest w żadnej sposób utrudniony. Do sieci powierzchniowej należą np: Wikipedia, Facebook (chodzi tu o te posty, które publikowane są z ustawieniem „publiczne”), Empik, Amazon, Youtube, Onet, strona Prezydenta Polski, Ceneo i wiele innych stron. Trafiasz na nie wpisując od razu adres do przeglądarki albo wpisując zapytanie do wyszukiwarki. Surface web to nie są oczywiście tylko te wyniki, które wyświetlają Ci się na pierwszej stronie wyników wyszukiwania. Jak to zrobić, żeby trafiać na sensowne treści od razu? To kwestia strategii wyszukiwania, o których pisałam tu i tu i tu.
Mówi się, ze wyszukiwarki indeksują 3,5-4% stron (choć o statystykach napiszę jeszcze na końcu). Rozmiar internetu wg WorldWideWebSize na dn. 26.08.2019 r. to 5.31 bilionów stron. Google podaje w swoich materiałach, że „roboty indeksujące zbierają informacje z setek miliardów stron internetowych”… czyli, że do biliona to chyba jeszcze im trochę brakuje… Co w takim razie z resztą danych?
==========
Deep web skarbem templariuszy?
Są w internecie zasoby, które nie są widzialne dla wyszukiwarek, co oznacza nic innego jak to, że roboty wyszukiwarek nie radzą sobie z danymi zawartymi na jakiejś stronie albo nie mają możliwości ich penetracji/interpretacji. Co jest ukryte przed wyszukiwarką? Czego Google nie indeksuje:
– stron www generowanych dynamicznie
– stron zablokowanych dla robota wyszukiwarki
– stron bez odnośników do innych stron
– zasobów wymagających uwierzytelnienia
– stron pisanych w językach innych niż html
To właśnie są zasoby deep web – zasoby niewidzialne dla wyszukiwarek: zasoby, do których przeszukiwania służą ich własne, wewnętrzne wyszukiwarki albo te, które przeglądać można tylko za pozwoleniem; zasoby, których widoczność ktoś specjalnie ogranicza lub takie, do których nikt w sieci nie linkuje. A więc jeszcze raz, dokładniej i z przykładami:
– strony www generowane dynamicznie (np. rozkład jazdy pkp; wyszukiwarki/katalogi biblioteczne).
– strony zablokowane dla robota Google (w pliku robots.txt można dodać komendę blokującą indeksowanie całej witryny przez Googleboty lub dodać atrybut noindeks do meta tagu robots)
– strony bez odnośników do innych stron (tu odsyłam do nagrania o tym jak działa wyszukiwarka. Gdy do strony nikt nie linkuje wyszukiwarka jej nie znajdzie).
– zasoby wymagające uwierzytelnienia (np. podania nazwy użytkownika oraz hasła czyli logowania. Może to być związane, ale nie musi także z opłatami. Zaliczymy tu np. Netflix czy Youtube Premium, LinkedIn, strony bankowe i Paypal, dane w chmurze czyli Dropbox, Facebook gdy udostępniasz posty z opcją „tylko ja” lub „znajomi”, WhatssApp, Gmail, bazy danych z ograniczonym dostępem itp.)
– strony pisane w językach innych niż html (Flash, JavaScript, ASP, PHP, Cold Fusion)
Nikt do końca nie jest w stanie oszacować wielkości deep web’u – ogrom zasobów i ilość unikatowych wyszukiwarek szalenie to utrudnia. Powstają projekty zwane „głębokimi indeksami”, ale pojawiają się i znikają, i niewiele z nich udaje się realizować na dłuższą metę.
Możesz też trafić na takie zasoby, do których dostępu mieć nie będziesz i trzeba się z tym pogodzić, np. Naczelna Izba Lekarska prowadzi rejestr wszystkich lekarzy i lekarzy dentystów w Polsce. Możesz sprawdzić tam dane swojego lekarza bezpłatnie i bez logowania, ale jeśli chciałbyś poszperać w całej bazie, to już nie będzie takie łatwe, bo korzystanie z CRL podlega kontroli. Korzystanie z danych odbywa się na postawie indywidualnej umowy na dostęp do Rejestru i na zasadach odpłatności z analizą NIL co do zasadności twoich żądań. Jak stwierdzą, że udostępnienie danych nie leży w ich interesie, mogą twoją prośbę odrzucić.
==========
Darknet – jak mroczne to odmęty?
Są takie miejsca, które faktycznie nie są dostępne w powierzchniowym internecie. Nie znajdą ich zwykłe wyszukiwarki. To sieci, do których dostęp jest możliwy jedynie dzięki specjalnym, do tego celu stworzonym programom, które zapewniają internautom anonimowość: maskują lokalizacje i działania użytkowników. Najbardziej znany jest .onion, do której dostać się możemy po zainstalowaniu programu TOR (wiecie, że TOR był zaprojektowany początkowo przez Laboratorium Badań Marynarki Wojennej USA?). Ale nie jest to jedyna sieć naprawdę ukryta, oprócz niej są jeszcze: Invisible Internet Project (i2p) czy Freenet.
Darknet owiany złą sławą kojarzy się większości z nas z rozbojem, handlem narkotykami i bronią, pornografią i nie wiadomo jakim złem jeszcze. To prawda, sieci anonimizujące są wykorzystywane przez przestępców, ale „Podczas gdy ludzie mogą korzystać z ukrytej sieci w celach przestępczych, mogą też używać jej dla dobra ogółu i w celu ochrony swojej prywatności, czy zapewnieniu sobie bezpieczeństwa. Anonimowość jest ważna przez wzgląd na możliwości, jakie stwarza dla krzewienia demokracji i podtrzymywania jej fundamentów. Zapewnia przestrzeń dla wolności ekspresji oraz wyrażania opinii sprzecznych z tymi, które głosi władza. I dalej, anonimowość zapewnia zarówno ochronę jednostki, która niejednokrotnie pełni rolę rzecznika mniejszości, a także kreuje szanse, aby przyjęte przez władzę rozwiązania były krytykowane i kwestionowane przez ludzi o odmiennych poglądach” (Majorek).
Darknet to nie tylko rozbój i handel bronią! Z sieci TOR korzystają działacze polityczni, blogerzy, dziennikarze, reformatorzy; korzysta Human Rights Watch, Reporterzy bez Granic czy Global Voices. Z sieci anonimizujących może korzystać każdy, bo korzystanie z nich jest legalne, nielegalne może być to, do czego ich używasz i co tam robisz.
==========
Podsumowanie
Teraz już wiesz, że deep web i darknet to żadne „tajemnicze” twory;) Problem z deep web jest taki, że w większości to taki zasób sieci, który sam nam w ręce nie wejdzie – on czeka na twoje odkrycie (celowe lub przypadkowe).
Podobno 95% zasobów ukrytych jest dostępnych bezpłatnie, ale z tymi statystykami trzeba uważać. Jest trochę danych, które pojawiają się w artykułach i w sieci, trafisz na nie na pewno. Sprawdzaj z kiedy te dane pochodzą. Tempo przyrostu internetu jest ogromne (popatrz na licznik, ile pojawia się nowych treści co minutę), dlatego trudno uważać dane pochodzące z 2001 r. (a na nie najczęściej się autorzy powołują) za wiarygodne. Ja nie znam póki co śmiałka, które podjął się dzisiaj zadania zmierzenia i oszacowania invisible web (jeśli znasz, daj mi znać koniecznie). Jedno jest pewne – zasoby deep web są duże i naprawdę BARDZO wartościowe.
Problemem nie jest to, że ktoś coś specjalnie przed nami chowa. Kłopot w tym, że jesteśmy leniwi, idziemy na łatwiznę bądź brak nam umiejętności. „Z perspektywy przeciętnego użytkownika Internetu tak się właśnie sprawa ma: liczne zasoby są przed nami ukryte już to z powody deficytu wiedzy, już to z braku właściwych narzędzi informatycznych, umiejętności ich instalacji i konfiguracji” (Mider). Chciałoby się rzec tylko tyle i aż tyle.
A następnym razem podpowiem Jak odkrywać zasoby deep web i 20 źródeł, które do deep web należą. Stay tuned!
==========
Bibliografia:
Mider Daniel (2015). Mappa Mundi ukrytego Internetu. Próba kategoryzacji kanałów komunikacji i treści. PTINT, nr 1, s. 3-16.
Majorek Marta (2017). Darknet. Ostatni bastion wolności w internecie? Bezpieczeństwo. Teoria i praktyka, nr 4, s. 85-97.