Seiten Crawler:
Downloaden aller Webseiten von einer gegebenen Domain oder Basis URL.
Hinweise
Einschränkung der Crawl Geschwindigkeit
No more that four pages are loaded from the same host in one second (not more that 120 document per minute) to limit the load on the target server.
Ziel Balancer
Ein zweiter Crawl für einen anderen Host erhöht den Durchsatz auf ein Maximum von 240 Dokumenten pro Minute weil der der Crawler Balancer die Last über alle Hosts verteilt.
Hochgeschwindigkeits Crawlen
Ein 'oberflächlicher Crawl' der nicht auf einen einzelnen Host (oder eine Seite) limitiert ist
kann die Anzahl der Seiten pro Minute (ppm) auf unendlich viele Dokumente pro Minute erweitern wenn die Anzahl der Ziel Hosts hoch ist.
Das kann erreicht werden durch Verwendung des Crawl Start (Expert) Servlets.
Geplante Steuerung
Die geplante Ausführung von Crawls kann geändert oder entfernt werden mit der API Aktionen Steuerung.