Nutch: robot

O Nutch

Częste pytania

Deweloperzy

Darowizny

:: Administratorzy

:: Webmasterzy

:: Kontakt

robot

Jeśli czytasz ten tekst, to prawdopodobnie widziałeś w logach swojego serwera jak nasz robot indeksujący odwiedzał twoje strony. Kiedy my odwiedzamy serwery w celu zbudowania indeksu, używamy nagłówka "User-agent" zawierającego tekst "NutchOrg". Jeśli tekst, który widzisz, to "Nutch" lub "NutchCVS", to prawdopodobnie jakiś deweloper testuje nową wersję naszego robota, lub też ktoś uruchamia własną kopię wyszukiwarki.

Jesteśmy projektem Open Source, który stara się zbudować narzędzie użyteczne dla szerokiego ogółu. Dlatego też jest dla nas naturalne, że chcemy być dobrymi obywatelami sieci (netizens). Jeśli zauważycz, że nasz robot zachowuje się niepoprawnie, prosimy o krótką wiadomość na adres agent@nutch.org, a my sprawdzimy na czym polega problem.

Nasz robot pobiera i przetwarza pliki "robots.txt", jak również sprawdza znaczniki META w plikach HTML. Są to standardowe sposoby, przy pomocy których webmasterzy mogą informować roboty indeksujące o tym, które części serwisu robot może odwiedzać.

Administratorzy / robots.txt

Jesteśmy projektem Open Source, więc prosimy o zrozumienie, że niepoprawnie zachowujący się robot, który przedstawia się w polu Agenta naszym tekstem, może nie należeć do nas. Nasz kod źródłowy dostępny jest dla wszystkich, którzy mają ochotę coś z nim zrobić. Mimo to, czy należy on do nas czy też nie, będziemy wdzięczni za powiadomienie nas o zaobserwowanym złym zachowaniu. Jeśli to możliwe, prosimy o podanie nazwy domeny oraz fragmentu logu serwera świadczącego o nadużyciu. Można się z nami skontaktować pisząc na adres agent@nutch.org .

Nasz robot przestrzega reguł zawartych w standardzie "robots.txt", opisanych w http://www.robotstxt.org/wc/exclusion.html#robotstxt. W zależności od konfiguracji, nasz robot może przestrzegać różnych konkretnych reguł. Postanowiliśmy zawsze przestrzegać reguł o nazwie "Nutch", żeby w prosty sposób można było zabronić naszemu robotowi odwiedzania stron. A oto szczegóły dla różnych przypadków:

Jeśli uruchamiamy robota w celu zapełnienia naszego indeksu, przedstawiamy się jako "NutchOrg", i przestrzegamy reguł dla "NutchOrg" jeśli istnieją, lub "Nutch", lub "*".
Jeśli ktoś uruchamia niezmodyfikowaną wersję robota pobraną z CVS (włączając w to przypadki kiedy my sami testujemy robota), przedstawia się on jako "NutchCVS", i przestrzega reguł dla "NutchCVS" jeśli istnieją, lub "Nutch", lub "*".
Pełne wersje produkcyjne naszego robota przedstawiają sie jako "Nutch", i przestrzegają reguł dla "Nutch" lub "*".

Jeśli na swoim serwisie chcesz zabronić odwiedzin wszelkich robotów, to w pliku "robots.txt" umieść:

User-agent: *
Disallow: /

Aby zabronić odwiedzin robota Nutch z wyjątkiem przypadku gdy buduje on indeks demonstracyjny Nutch.Org, umieść następującą pozycję w pliku "robots.txt":

User-agent: Nutch
Disallow: /


User-agent: NutchOrg
Disallow:

Aby zabronić wszelkich odwiedzin robota Nutch:

User-agent: Nutch
Disallow: /

Webmasterzy / Znaczniki META dla robotów

Jeśli nie masz uprawnień do wprowadzania zmian do pliku /robots.txt na swoim serwerze, to i tak możesz przekazać robotom żeby nie indeksowały twoich stron lub nie podążały za twoimi odnośnikami. Standardowym sposobem jest zastosowanie znaczników META, jak to opisano w http://www.robotstxt.org/wc/meta-user.html.

Jeśli chcesz poinformować robota Nutch, lub jakiegokolwiek innego, żeby nie indeksował twoich stron lub odnośników, wstaw następujące znaczniki META do części HEAD w plikach HTML:

<meta name="robots" content="noindex,nofollow">

Oczywiście, można kontrolować polecenia "index" i "follow" niezależnie. Słowa kluczowe "all" lub "none" również są dozwolone, i oznaczają odpowiednio "index,follow" lub "noindex,nofollow". Parę przykładów:

<meta name="robots" content="all">
<meta
  name="robots" content="index,follow">
<meta name="robots"
  content="index,nofollow">
<meta name="robots"
  content="noindex,follow">
<meta name="robots"
  content="none">

Jeśli nie ma powyższych znaczników META (tzn. nie występuje ani "nofollow", ani "none"), Nutch uzna że dozwolone jest indeksowanie stron i odnośników.

Except where otherwise noted,
this site is licensed under a Creative Commons License.
ca | de | en | es | fi | fr | hu | jp | ms | nl | pl | pt | sv | th | zh