Jak działają roboty indeksujące Google?


Jak wynika z raportu portalu Interaktywnie.com, w 2021 r. na świecie było niemal 1,9 miliarda stron internetowych. Taką ilość trudno sobie nawet zwizualizować, nie mówiąc już o przejrzeniu całej dostępnej zawartości, mimo to konieczne jest katalogowanie tych treści, choćby po to, by możliwe było odnalezienie interesujących nas materiałów. Z pomocą przychodzą roboty indeksujące, odpowiedzialne za „przeczesywanie” Internetu i tworzenie bazy danych, na podstawie której wyznaczane są pozycje stron w wyszukiwarce. W dzisiejszym wpisie przedstawimy, czym są roboty internetowe, jak działają oraz w jaki sposób można ułatwić im pracę. Zaczynamy!

Jak działają roboty indeksujące Google? - Wedo.pl

Czym jest robot internetowy?

Roboty internetowe, określane niekiedy także mianem agentów, spikerów, pająków, wędrowców lub crawlerów, to oprogramowanie indeksujące służące do odwiedzania stron internetowych i odczytywania zawartych na nich treści.
Odpowiadają one za odwiedzanie milionów witryn w krótkim czasie oraz archiwizowanie ich zawartości. Tworzone przez nie bazy danych pozwalają na wyznaczenie pozycji poszczególnych stron w wynikach wyszukiwania. Roboty internetowe to przydatne narzędzie, a eksplorowanie zawartości Internetu przez wędrowców wydatnie ułatwia i przyspiesza segregowanie serwisów WWW.

Zapamiętaj!

Najsłynniejszym crawlerem jest Googlebot, a odwiedzenie strony przez tego spikera jest warunkiem koniecznym do wyświetlenia witryny w wyszukiwarce Google.

Czym jest Googlebot?

Googlebot to potoczna nazwa oprogramowania do indeksowania stron WWW stworzonego przez Google. W Internecie poruszają się różne rodzaje crawlerów stworzonych przez kalifornijskiego giganta. Desktop Googlebot sczytuje witryny dostosowane do przeglądania na komputerach, Mobile Googlebot weryfikuje wersje stron na urządzenia mobilne, zdjęcia „przegląda” Googlebot Images, a za „śledzenie” najświeższych wiadomości odpowiada Googlebot News.
Dedykowane roboty wykonują zróżnicowane zadania, ale ich wspólnym celem jest katalogowanie treści zamieszczanych w Internecie, dzięki czemu możliwa jest sprawna nawigacja po sieci. Googleboty przemieszczają się po stronach WWW za pomocą umieszczonych w nich odnośników, a proces ten określa się mianem skanowania.
Tworząc witrynę WWW jesteśmy w stanie ułatwić pracę crawlerów, przygotowując mapę strony oraz tworząc plik robots.txt – korzystając z tych rozwiązań, możemy do pewnego stopnia nawigować robotami indeksującymi.

Zapamiętaj!

Indeksowanie to dodawanie witryny do tworzonego przez Googleboty indeksu, na podstawie którego powstaje ranking wyszukiwarki Google.

Jak działają Googleboty?

Jak działają Googleboty? - Wedo.pl

Googleboty to oprogramowanie przemierzające strony internetowe w celu ich katalogowania, zbierania i dodania do indeksu wyszukiwarki Google. Ich praca rozpoczyna się w chwili, w której otrzymają zgłoszenie o pojawieniu się niedawno utworzonej witryny. Takim sygnałem może być dodanie strony do narzędzia Google Search Console lub pojawienie się linku do strony w innym serwisie.
Pierwszym krokiem crawlera jest odczytanie znajdującego się zwykle w głównym katalogu serwera pliku robots.txt, a jego treść pozwala robotom na pominięcie w procesie indeksowania określonych przez webmastera treści i plików.
Po otrzymaniu sygnału o pojawieniu się nowej strony Googlebot odwiedza ją i skrupulatnie analizuje jej treść pod kątem obecności linków wewnętrznych i zewnętrznych. Odnośniki pozwalają mu zaplanować dalszą „trasę” przez podstrony i podlinkowane witryny.
W następnym kroku robot analizuje podstrony serwisu pod kątem czynników rankingowych.

Zapamiętaj!

Pomimo tego, że roboty Google śledzą linki prowadzące do danej strony, a ich ilość jest jednym z czynników wpływających na pozycjonowanie, ważne, by linki te pojawiały się w wartościowych serwisach, bo jakość poszczególnych odnośników ma znaczenie dla pozycji witryny w rankingu.

Wiele robotów Google, w tym Googlebot Images i Googlebot Video, dużą wagę przykłada do prędkości działania strony, ponieważ czas poświęcony dla każdej podstrony serwisu jest ograniczony. Praktyka pokazuje, że „lżejsze” i krócej wczytujące się witryny zostają lepiej ocenione przez crawlery, a ich indeksacja zostanie przeprowadzona szybciej.
Zdaniem ekspertów SEO, jeszcze do niedawna indeksowanie strony przebiegało na dwa sposoby. Roboty Google stosowały następujące metody:

  • fresh crawl – czyli odwiedzanie często aktualizowanych stron, sprawdzanie zmian w witrynie i aktualizowanie danych w indeksie;
  • deep crawl – a więc przeszukiwanie głębokie poprzez metodyczne przechodzenie z linku do linku i zbieranie informacji o zawartości strony, pod kątem zarówno nowych treści, jak i tych istniejących wcześniej.

Proces ten jednak uległ zmianie i obecnie stosowany sposób działania Googlebotów nie został jeszcze poznany w dostatecznym stopniu. Jedną z niewielu pewnych informacji jest to, że indeksowanie odbywa się często, co pozwala na bieżąco aktualizować wyniki w SERP-ach.

Za co odpowiadają roboty w pozycjonowaniu i indeksowaniu stron internetowych?

Rolą crawlerów jest skanowanie witryn i tworzenie bazy danych, która jest podstawą do stworzenia rankingu wyszukiwania. Indeks wyszukiwania jest porządkowany na bieżąco, a każda zaktualizowana lub nowo powstała witryna zostaje poddana skanowaniu przez Googlebota.
Algorytmy Google odpowiedzialne za wyszukiwanie stron biorą pod uwagę kilkaset różnych czynników umożliwiających poprawne odnalezienie odpowiedzi na wpisane zapytanie. Ich działanie jest złożone, a do niektórych z uwzględnianych przez nie czynników należą:

  • liczba i sposób rozmieszczenia słów kluczowych,
  • jakość witryny,
  • szybkość funkcjonowania strony.

Przeanalizowanie miliardów podstron pod kątem wspomnianych już kilkuset zmiennych zajmuje wyszukiwarce Google zaledwie około pół sekundy, co jest wyjątkowo imponującym rezultatem.

Zapamiętaj!

Indeksowanie ma charakter cykliczny: po pierwszej wizycie w witrynie roboty będą na nią wracać co jakiś czas w celu zaindeksowania zmian na stronie. Im częściej zdarzy im się natrafić na nowe, wartościowe pod kątem wyników wyszukiwania treści, tym większe prawdopodobieństwo, że roboty będą na naszej stronie stałymi gośćmi, a szybsza indeksacja nowego contentu korzystnie wpłynie na widoczność witryny w wynikach wyszukiwania.

Na pracę robotów wpływ ma także technologia, w której wykonana została strona. Oprogramowanie Google bardzo dobrze sobie radzi z interpretacją domen opartych o CSS i HTML, i jest w stanie wykryć także nieuczciwe praktyki mające na celu „podbicie” pozycji w wyszukiwarce (np. umieszczanie elementów ukrytych).
Większym wyzwaniem dla pająków jest JavaScript, co wymusza niekiedy na twórcach stron przygotowanie dwóch różnych wersji: widoku dla użytkownika oraz wersji dla robotów obsługujących jedynie bardziej „okrojone” rozwiązania JavaScript. Jest to dość poważny problem w przypadku tzw. frameworków, w tym także Angular.js, czyli popularnego frameworku stworzonego przez… Google! Opieranie stron na tej technologii niesie więc ze sobą ryzyko, że przygotowana strona nie uzyska dobrej widoczności w wynikach wyszukiwania.

Jakie są rodzaje robotów indeksujących Google?

Jak już wspomnieliśmy, istnieje wiele rodzajów robotów indeksujących Google, a każdy z nich ma inne zadania. Tym, co łączy różne typy crawlerów, jest wspólny cel: stworzenie możliwie jak najbardziej kompletnej bazy danych, stanowiącej podstawę dla rankingu stron w wyszukiwarce Google.

„Googleboty stanowią rodzaj pomostu pomiędzy twórcami serwisów, a ich odbiorcami, ponieważ zaindeksowanie witryny jest warunkiem koniecznym do jej pojawienia się w wynikach wyszukiwania.” – Dominik Bigosiński, Freelance Copywriter

Googleboty możemy podzielić na te odpowiadające za poszczególne wersje witryny (a więc wariant przeznaczony do wyświetlania na komputerach i urządzeniach mobilnych) oraz crawlery koncentrujące się na określonych rodzajach treści: grafice (Googlebot Images), filmach (Googlebot Video) i najświeższych informacjach (Googlebot News). Istnieje także specjalny typ botów bacznie przyglądających się wyświetlanym w witrynie reklamom (AdsBot). Zmiana technologiczna oraz wzrost znaczenia ruchu z urządzeń mobilnych wymusiły także stworzenie specjalnego crawlera do indeksowania aplikacji.

Których podstron nie należy indeksować?

Choć wydawałoby się, że udostępnienie robotom Google jak największej liczby podstron korzystnie wpłynie na pozycjonowanie witryny, istnieją typy podstron, których nie należy indeksować. W dużym uproszczeniu są to wszystkie strony zawierające wrażliwe lub poufne dane, podstrony, które z różnych względów zostały powielone w obrębie jednej domeny oraz strony testowe i pozbawione treści. Aby nie zaszkodzić pozycji strony w rankingach wyszukiwania, warto rozważyć zablokowanie crawlerom dostępu do określonych typów treści.
Strony, których nie należy poddawać indeksowaniu to m.in.:

  • koszyki zakupowe,
  • podstrony zamówień,
  • kategorie produktów, w których nie da się uniknąć powielania treści,
  • formularze rejestracji, logowania i zapisu do newslettera,
  • strony konwersji.
  • regulaminy,
  • dokumenty dotyczące polityki prywatności i poszczególnych przepisów prawnych,
  • wewnętrzne narzędzia wyszukiwania,
  • certyfikaty i pliki cookies.

Większość z nich to podstrony zawierające treść pozbawioną z punktu widzenia indeksowania, a dostęp do nich mają jedynie użytkownicy korzystający z konkretnych usług oferowanych w witrynie.

Zapamiętaj!

Jeśli nie chcesz, by Googleboty indeksowały wszystkie podstrony, możesz zablokować dostęp do konkretnych treści w pliku robots.txt

Warto mieć na uwadze także to, że roboty Google są ograniczone przez tzw. crawl budget. W dużym uproszczeniu jest to liczba podstron, które pająk może zaindeksować podczas jednej wizyty w serwisie. Ze względu na nałożone ograniczenia, warto zwrócić szczególną uwagę na konstrukcję naszej strony. Eliminując treści niskiej jakości oraz duplikaty zwiększamy szanse Googlebota na odnalezienie wartościowych materiałów i podstron.

Jak ułatwić Googlebotowi indeksację strony?

Ze względu na wręcz przytłaczającą ilość treści udostępnianych w Internecie, Googleboty mają mnóstwo pracy, więc niekiedy trzeba czekać nawet kilkadziesiąt dni, zanim trafią na naszą stronę. Można jednak ułatwić im zadanie i przyspieszyć ten proces. Warto to zrobić, ponieważ, jak już wspomnieliśmy, indeksowanie jest koniecznym warunkiem do pojawiania się strony w wynikach wyszukiwania Google.

    Zapytaj o darmową, niezobowiązującą wycenę

    Wypełniając powyższy formularz, wyrażasz zgodę na przetwarzanie danych osobowych przez firmę Wedo Sp. z o.o. Zgody udzielasz dobrowolnie w celu udzielenia odpowiedzi na Twoje zapytanie. W każdym momencie możesz wycofać udzieloną zgodę.

    Istnieje kilka czynników umożliwiających przyspieszenie indeksowania naszej strony przez Googleboty. Należą do nich:

    • odpowiednia konfiguracja pliku robots.txt (plik ten zawiera komendy widoczne dla robotów i określa kierunki „pełzania” po witrynie, blokując określone treści i podstrony),
    • skonfigurowanie narzędzia Google Search Console (twórcy tego oprogramowania umożliwiają m.in. zgłoszenie prośby o ponowne zaindeksowanie określonych adresów lub ograniczenie częstotliwości indeksowania),
    • przesłanie mapy witryny do Google Search Console (mapa zawierająca listę podstron stanowi sygnał dla robota, że może rozpocząć pracę),
    • linki zewnętrzne (odnośniki do naszej witryny w wartościowych serwisach, mediach społecznościowych i na forach dyskusyjnych ułatwiają robotom odnalezienie naszej strony).

    Jak możemy zauważyć powyżej, twórcy serwisów mają spore możliwości w zakresie ułatwienia procesu indeksowania strony. Nieco więcej wysiłku wymaga stworzenie odpowiedniej liczby odnośników prowadzących do witryny, ale da się to zrobić przynajmniej na kilka sposobów, chociażby poprzez aktywność w mediach społecznościowych, współpracę z partnerami biznesowymi czy wykupienie treści sponsorowanych.

    Zapamiętaj!

    Sporządzenie mapy strony, czyli dokumentu XML z listą podstron, jest szczególnie ważne w przypadku rozbudowanych serwisów o wielu zakładkach i stanowi czytelny sygnał, dzięki któremu Googlebot dowiaduje się o nowych podstronach wymagających indeksowania. Mapa strony jest także sposobem na wykorzystanie w pełni wspomnianego już crawl budget.

    Jak działają roboty indeksujące Google? – podsumowanie

    Działalność Googlebotów stanowi pomost pomiędzy twórcami stron a odbiorcami. Tworzone przez roboty indeksujące bazy danych umożliwiają sprawne poruszanie się po sieci i wyszukiwanie interesujących nas informacji, dlatego tak ważne jest zoptymalizowanie witryny pod kątem indeksowania.
    Poznając sposób pracy crawlerów, jesteśmy w stanie przygotować przyjazne dla nich rozwiązania, dzięki którym nasza strona stanie się czytelna dla robotów, co korzystnie przełoży się na widoczność serwisu w wynikach wyszukiwania.
    Pamiętajmy, że indeksowanie jest procesem stałym i cyklicznym, dlatego ważne jest regularne aktualizowanie strony oraz dodawanie nowych podstron i treści. Nie należy zapominać o odpowiednim skonfigurowaniu pliku robots.txt oraz przygotowaniu mapy strony na potrzeby Google Search Console – skorzystanie z tych narzędzi umożliwia do pewnego stopnia kontrolowanie pracy robotów i pozwala ukryć przed nimi treści, które mogą negatywnie wpływać na pozycjonowanie serwisu.

    Autor: Dominik Bigosiński
    Autor tekstów specjalizujący się w wymagających tematach dotyczących SEO, digital marketingu oraz e-commerce. Stawia na jakość, merytorykę i wysokie topical Authority, a w swojej pracy skutecznie realizuje zasady pracy głębokiej opisane w książce „Deep Work” Cala Newporta.

    FAQ – najczęstsze pytania i odpowiedzi

    Poniżej przedstawiamy najczęstsze pytania i odpowiedzi w tematyce raportu SEO.

    #1 Czy można wpływać na działania Googlebotów?

    Twórcy stron internetowych mogą mieć pewien wpływ na indeksowanie przeprowadzane przez crawlery. Służy do tego plik robots.txt pozwalający na nawigowanie ruchem robotów w serwisie. Dodatkowo istnieje możliwość zgłoszenia prośby o ponowne indeksowanie strony za pomocą Google Search Console. To narzędzie może się także okazać pomocne w sytuacji, gdy zależy nam na zmniejszeniu częstotliwości indeksowania witryny.

    #2 Czy warto optymalizować stronę pod Googleboty?

    Działania Googlebotów mają bezpośredni wpływ na widoczność strony w wynikach wyszukiwania oraz jej pozycję w SERP-ach, dlatego już na etapie projektowania witryny warto zadbać o to, by serwis był przyjazny dla crawlerów.

    #3 W jaki sposób można ograniczyć częstotliwość indeksowania strony przez Googleboty?

    Choć indeksowanie jest procesem stałym i cyklicznym, istnieje sposób na ograniczenie jego częstotliwości. Narzędziem służącym do zmniejszenia ruchu crawlerów na stronie jest Google Search Console.

    #4 Czy stworzenie wersji strony na urządzenia mobilne wpływa na indeksowanie?

    Rosnący ruch z urządzeń mobilnych wymusił na Google uwzględnianie ich specyfiki. Serwisy posiadające swoje wersje na urządzenia przenośne podlegają indeksowaniu mobile-first, co oznacza, że wersja mobilna jest brana pod uwagę przy określaniu pozycji w wynikach wyszukiwania, także w przypadku korzystania z wyszukiwarki za pomocą urządzenia wyświetlającego wariant desktop.

    Z tego artykułu dowiedziałeś się:

    • Czym jest robot indeksujący i jakie znaczenie ma wykonywana przez niego praca?
    • Jakie typy Googlebotów można spotkać w Internecie i jakie są ich zadania?
    • Jak działalność Googlebotów wpływa na pozycjonowanie stron oraz co można zrobić, by ułatwić im pracę?
    • W jaki sposób i za pomocą jakich narzędzi można nawigować ruchem Googlebotów w witrynie?
    • Których podstron serwisu nie należy indeksować?
    4.8/5 - (33)