|
|
Jeśli czytasz ten tekst, to prawdopodobnie widziałeś w logach swojego serwera jak nasz robot indeksujący odwiedzał twoje strony. Kiedy my odwiedzamy serwery w celu zbudowania indeksu, używamy nagłówka "User-agent" zawierającego tekst "NutchOrg". Jeśli tekst, który widzisz, to "Nutch" lub "NutchCVS", to prawdopodobnie jakiś deweloper testuje nową wersję naszego robota, lub też ktoś uruchamia własną kopię wyszukiwarki. Jesteśmy projektem Open Source, który stara się zbudować narzędzie użyteczne dla szerokiego ogółu. Dlatego też jest dla nas naturalne, że chcemy być dobrymi obywatelami sieci (netizens). Jeśli zauważycz, że nasz robot zachowuje się niepoprawnie, prosimy o krótką wiadomość na adres agent@nutch.org, a my sprawdzimy na czym polega problem. Nasz robot pobiera i przetwarza pliki "robots.txt", jak również sprawdza znaczniki META w plikach HTML. Są to standardowe sposoby, przy pomocy których webmasterzy mogą informować roboty indeksujące o tym, które części serwisu robot może odwiedzać. Administratorzy / robots.txtJesteśmy projektem Open Source, więc prosimy o zrozumienie, że niepoprawnie zachowujący się robot, który przedstawia się w polu Agenta naszym tekstem, może nie należeć do nas. Nasz kod źródłowy dostępny jest dla wszystkich, którzy mają ochotę coś z nim zrobić. Mimo to, czy należy on do nas czy też nie, będziemy wdzięczni za powiadomienie nas o zaobserwowanym złym zachowaniu. Jeśli to możliwe, prosimy o podanie nazwy domeny oraz fragmentu logu serwera świadczącego o nadużyciu. Można się z nami skontaktować pisząc na adres agent@nutch.org . Nasz robot przestrzega reguł zawartych w standardzie "robots.txt", opisanych w http://www.robotstxt.org/wc/exclusion.html#robotstxt. W zależności od konfiguracji, nasz robot może przestrzegać różnych konkretnych reguł. Postanowiliśmy zawsze przestrzegać reguł o nazwie "Nutch", żeby w prosty sposób można było zabronić naszemu robotowi odwiedzania stron. A oto szczegóły dla różnych przypadków:
Jeśli na swoim serwisie chcesz zabronić odwiedzin wszelkich robotów, to w pliku "robots.txt" umieść: User-agent: * Aby zabronić odwiedzin robota Nutch z wyjątkiem przypadku gdy buduje on indeks demonstracyjny Nutch.Org, umieść następującą pozycję w pliku "robots.txt": User-agent: Nutch Aby zabronić wszelkich odwiedzin robota Nutch: User-agent: Nutch Webmasterzy / Znaczniki META dla robotówJeśli nie masz uprawnień do wprowadzania zmian do pliku /robots.txt na swoim serwerze, to i tak możesz przekazać robotom żeby nie indeksowały twoich stron lub nie podążały za twoimi odnośnikami. Standardowym sposobem jest zastosowanie znaczników META, jak to opisano w http://www.robotstxt.org/wc/meta-user.html. Jeśli chcesz poinformować robota Nutch, lub jakiegokolwiek innego, żeby nie indeksował twoich stron lub odnośników, wstaw następujące znaczniki META do części HEAD w plikach HTML: <meta name="robots" content="noindex,nofollow"> Oczywiście, można kontrolować polecenia "index" i "follow" niezależnie. Słowa kluczowe "all" lub "none" również są dozwolone, i oznaczają odpowiednio "index,follow" lub "noindex,nofollow". Parę przykładów: <meta name="robots" content="all"> Jeśli nie ma powyższych znaczników META (tzn. nie występuje ani "nofollow", ani "none"), Nutch uzna że dozwolone jest indeksowanie stron i odnośników. |
Except where otherwise noted, this site is licensed under a Creative Commons License. ca | de | en | es | fi | fr | hu | jp | ms | nl | pl | pt | sv | th | zh |
||