Co chowa wyszukiwarka? cz.2

Deep web czyli ukryty / niewidoczny / głęboki web. Czy możliwe, że są dziś jeszcze treści, których nie indeksują standardowe wyszukiwarki internetowe? Możliwe:) I choć wiele się w tej kwestii dzieje i zmienia, ciągle są takie miejsca, których nie pokaże nam Google nawet w pierwszej setce wyników. Kiedyś mieliśmy problem z wyszukiwaniem obrazków i plików .pdf a dziś ich obecność na liście wyszukiwania jest oczywistością.

 

Póki co na początek dwie króciutkie definicje:
  • Invisible Web to dostępne w sieci i często bardzo wartościowe strony tekstowe, pliki czy inne informacje, których z przyczyn technicznych bądź innych ograniczeń nie indeksują ogólne wyszukiwarki (wg. C. Shermana i G. Price’a)
  • Deep Web to strony www tworzone dynamicznie jako wyniki specjalistycznych wyszukiwań w bazach danych (wg. M. K. Bergmana)

 

Jak to się dzieje, że w ogóle wyszukiwarka stronę znajduje? Każda strona ma swoją wartość. Wartość tę nadaje się np. metodą PageRank (metoda opracowana przez pomysłodawcę Google, ale dziś śmiało adoptowana także przez inne wyszukiwarki) gdzie „jakość tekstu jest proporcjonalna do liczby tekstów na niego się powołujących. (…) jeśli na dany tekst powołuje się artykuł, który sam ma wysoką ocenę, ma to większe znaczenie, niż gdy na ten sam tekst powołuje się mało popularna strona.” Czyli po prostu jeśli mamy mało odnośników/linków w sieci do naszej strony, to i nisko będziemy w rankingu wyszukiwarki. Pomyślcie teraz np. o stronach domowych naukowców, ich blogach czy prywatnych serwisach, które dotyczą specjalistycznych tematów. Nigdy nie osiągną takiego rankingu jak strona poświęcona najnowszemu Show w TVP.

 

Strony i pliki tworzone dynamicznie – to wszystkie te miejsca, w których baza danych będzie wymagać od użytkownika najpierw zadania pytania, wypełnienia formularza lub ustalenia preferencji. Dopiero po takich działaniach zostaje „udzielona odpowiedź” czyli wyniki tworzone są dopiero po wskazaniu pewnych wytycznych. Pomyślcie o katalogach bibliotecznych, bibliografiach, specjalistycznych bazach danych. Także tych miejscach, które wymagają logowania.

 

Wiadomości giełdowe, kursy walut, rozkłady jazdy, rozkłady odlotów i przylotów, audycje radiowe, prognozy pogody to informacje przekazywane w czasie rzeczywistym. Zawartość takich informacji zmienia się niemal codziennie, często operują one strumieniowym przekazywaniem danych, tworzone są do tego w wielkich ilościach i stąd także one są pomijane. Gdy chcemy sprawdzić kiedy odjeżdża pociąg z Warszawy do Krakowa nie wpisujemy tego pytania w wyszukiwarkę, ale otwieramy stronę PKP:)

 

cdn

 

0 0 votes
Article Rating
Subscribe
Powiadom o
guest
0 komentarzy
Inline Feedbacks
View all comments