Protokół ten jest używany przez administratorów stron internetowych, gdy istnieją sekcje lub pliki, do których nie mieliby dostępu reszta świata. Może to obejmować listy pracowników lub pliki, które krążą wewnętrznie. Na przykład strona internetowa Białego Domu wykorzystuje plik robots.txt do blokowania wszelkich zapytań dotyczących wypowiedzi wiceprezydenta, eseju fotograficznego Pierwszej Damy i profili ofiar 911.
Jak działa protokół? Zawiera listę plików, które nie powinny być skanowane i umieszcza je w katalogu głównym witryny. Protokół robots.txt został stworzony w drodze konsensusu w czerwcu 1994 roku przez członków listy mailingowej robotów ([email protected]). Nie ma oficjalnego organu normalizacyjnego ani RFC dla protokołu, więc trudno jest ustanowić prawo lub nakazać przestrzeganie protokołu. W rzeczywistości plik traktowany jest jako ściśle doradczy i nie ma absolutnej gwarancji, że te treści nie zostaną odczytane.
Как работать с plik robots.txt? Просто о сложном
W efekcie robot.txt wymaga współpracy pająka sieciowego, a nawet czytnika, ponieważ wszystko, co jest przesyłane do Internetu, staje się publicznie dostępne. Nie blokujesz ich z tych stron, tylko utrudniasz im dostęp. Ale ignorowanie tych instrukcji jest bardzo niewielkie. Hakerzy komputerowi mogą łatwo przeniknąć pliki i pobrać informacje. Zasada jest więc taka, że to wrażliwe, nie powinno się zaczynać od strony internetowej.
Należy jednak zadbać o to, aby protokół Robots.txt nie blokował robotów sieciowych z innych obszarów witryny. Wpłynie to znacząco na ranking Twojej wyszukiwarki, ponieważ roboty indeksujące liczą na słowa kluczowe, sprawdzają metatagi, tytuły i poprzeczki, a nawet rejestrują hiperlinki.
Jeden niewłaściwie umieszczony łącznik lub kreska może mieć katastrofalne skutki. Na przykład wzorce plików robots.txt są porównywane przez proste porównania podłańcuchów, dlatego należy zadbać o to, aby wzory pasujące do katalogów miały dołączony końcowy znak :/:: w przeciwnym razie wszystkie pliki o nazwach rozpoczynających się od tego podciągu będą pasować, a nie tylko te w katalogu przeznaczonym.
Aby uniknąć takich problemów, rozważ przesłanie swojej strony do symulatora pająka wyszukiwarki, zwanego także symulatorem robota wyszukiwarki. Te symulatory, które można kupić lub pobrać z Internetu? wykorzystaj te same procesy i strategie różnych wyszukiwarek, aby uzyskać :suchy bieg:? o tym, jak będą czytać twoją stronę. Poinformują Cię, które strony są pomijane, które linki są ignorowane i jakie napotkano błędy. Ponieważ symulatory będą również odtwarzać, jak roboty będą podążać za Twoimi hiperlinkami, zobaczysz, czy Twój protokół robota.txt ingeruje w zdolność wyszukiwarki do czytania wszystkich niezbędnych stron.
Ważne jest również sprawdzenie plików robota.txt, które umożliwią wykrycie problemów i skorygowanie ich przed przesłaniem do rzeczywistych wyszukiwarek. How to Robot Txt Czasami dobrze oceniamy jeden silnik dla danego fraza i zakładamy, że wszystkie wyszukiwarki polubią nasze strony, a tym samym będziemy dobrze klasyfikować się do tego fraza w wielu silnikach. Niestety tak się rzadko zdarza. Wszystkie główne wyszukiwarki różnią się nieco, więc to, co dostajesz wysoką pozycję na jednym silniku, może faktycznie pomóc obniżyć pozycję w rankingu na innym silniku.
Z tego powodu niektórzy ludzie lubią optymalizować strony dla poszczególnych wyszukiwarek. Zwykle te strony byłyby tylko trochę inne, ale ta niewielka różnica mogłaby mieć znaczenie, jeśli chodzi o ranking.
Jednak, ponieważ roboty indeksujące w wyszukiwarkach indeksują każdą stronę, którą może znaleźć, może natrafić na optymalizujące strony wyszukiwarki i ponieważ są bardzo podobne, pająk może pomyśleć, że je spamujesz i zrobi jedną z dwóch rzeczy, witryny lub surowo karać Cię w postaci niższych rankingów.
Rozwiązaniem tego problemu jest zatrzymanie indeksowania niektórych stron WWW przez niektóre roboty wyszukiwarek. Odbywa się to za pomocą pliku robots.txt, który znajduje się na twojej przestrzeni internetowej.
Plik Robots.txt jest istotną częścią każdej webmasterów, którzy walczą przeciwko zbanowaniu lub karaniu przez wyszukiwarki, jeśli projektuje różne strony dla różnych wyszukiwarek..
Plik robots.txt to zwykły plik tekstowy, sugerowany przez rozszerzenie pliku. Jest on tworzony za pomocą prostego edytora tekstu, takiego jak Notatnik lub WordPad, skomplikowane edytory tekstu, takie jak Microsoft Word, tylko uszkodzą plik.
Możesz wprowadzić kod w tym pliku tekstowym, aby działał. W ten sposób można to zrobić.
Użytkownik-Agent: (nazwa pająka)
Disallow: (Nazwa pliku)
User-Agent to nazwa pająka wyszukiwarki, a Disallow to nazwa pliku, którego nie chcesz, aby spider indeksował.
Musisz uruchomić nową partię kodu dla każdego silnika, ale jeśli chcesz wyświetlać listy wielokrotnego odrzucania, możesz je umieścić pod innym. Na przykład
Użytkownik-Agent: Slurp (pająk Inktomi)
Disallow: xyz-gg.html
Disallow: xyz-al.html
Disallow: xxyyzz-gg.html
Disallow: xxyyzz-al.html
Powyższy kod uniemożliwia Inktomi przechodzenie na dwie strony zoptymalizowane pod kątem Google (gg) i dwie strony zoptymalizowane pod kątem AltaVista (al). Jeśli Inktomi może łączyć te strony, a także strony stworzone specjalnie dla Inktomi, możesz ryzykować, że zostaniesz zbanowany lub ukarany. Dlatego zawsze dobrze jest użyć pliku robots.txt.
Plik robots.txt znajduje się na Twojej przestrzeni internetowej, ale gdzie na Twojej przestrzeni internetowej? Katalog główny! Jeśli prześlesz plik do podkatalogów, nie będzie działać. Jeśli chcesz uniemożliwić indeksowanie pliku wszystkim silnikom, po prostu użyjesz znaku :*:, w którym zwykle będą znajdować się nazwy silników. Należy jednak pamiętać, że znak :*: nie będzie działał w linii Disallow.
Oto nazwy kilku wielkich silników:
Ekscytuj - ArchitextSpider
AltaVista - Scooter
Lycos - Lycos_Spider_ (T-Rex)
Google - Googlebot
Alltheweb - FAST-WebCrawler
Pamiętaj o sprawdzeniu pliku przed jego przesłaniem, ponieważ prawdopodobnie popełniłeś prosty błąd, który może oznaczać, że Twoje strony są indeksowane przez wyszukiwarki, których nie chcesz indeksować, lub, co gorsza, żadna ze stron nie może być indeksowana.