Wiele aplikacji, głównie wyszukiwarek, indeksuje strony codziennie, aby znaleźć aktualne dane.
Większość robotów sieciowych zapisuje kopię odwiedzanej strony, aby móc ją później łatwo zaindeksować, a reszta przeszukuje strony w celu wyszukiwania tylko takich wyników, jak wyszukiwanie wiadomości e-mail (w przypadku SPAM).
Jak to działa?
Przeszukiwacz potrzebuje punktu początkowego, który byłby adresem internetowym, adresem URL.
W celu przeglądania Internetu korzystamy z protokołu sieciowego HTTP, który pozwala nam rozmawiać z serwerami sieciowymi i pobierać lub przesyłać dane zi do niego.
Jak działa wyszukiwarka Google?
Przeszukiwacz przeszukuje ten adres URL, a następnie szuka hiperłączy (znacznik A w języku HTML).
Następnie robot przeszukuje te łącza i porusza się w ten sam sposób.
Do tej pory był to podstawowy pomysł. Teraz, w jaki sposób poruszamy się na nim, zależy całkowicie od celu samego oprogramowania.
Jeśli chcemy tylko pobierać e-maile, będziemy przeszukiwać tekst na każdej stronie (łącznie z hiperlinkami) i szukać adresów e-mail. Jest to najprostszy rodzaj oprogramowania do opracowania.
Wyszukiwarki są znacznie trudniejsze do opracowania.
Budując wyszukiwarkę musimy zająć się kilkoma innymi rzeczami.
1. Rozmiar - Niektóre witryny są bardzo duże i zawierają wiele katalogów i plików. Może pochłaniać dużo czasu na zbieranie wszystkich danych.
2. Zmień częstotliwość - strona internetowa może zmieniać się bardzo często nawet kilka razy dziennie. Strony można usuwać i dodawać każdego dnia. Musimy zdecydować, kiedy ponownie odwiedzić każdą witrynę i każdą stronę w witrynie.
3. Jak przetwarzamy dane wyjściowe HTML? Jeśli tworzymy wyszukiwarkę, chcielibyśmy zrozumieć tekst, a nie traktować go jako zwykły tekst. Musimy odróżnić podpis od prostego zdania. Musimy szukać tekstu pogrubionego lub kursywy, kolorów czcionki, rozmiaru czcionki, akapitów i tabel. Oznacza to, że musimy znać HTML bardzo dobrze i najpierw musimy go przeanalizować. Do tego zadania potrzebujemy narzędzia o nazwie :HTML TO XML Converters:. Można go znaleźć na mojej stronie internetowej. Możesz go znaleźć w polu zasobów lub poszukać go na stronie internetowej Noviway: www.Noviway.com.
To tyle na teraz. Mam nadzieję, że czegoś się nauczyłeś.