Seiten Crawlen

Seiten Crawler:  Downloaden aller Webseiten von einer gegebenen Domain oder Basis URL.

Seiten Crawl Start
Start URL (muss mit ... beginnen
http:// https:// ftp:// smb:// file://)

empty
Link Liste der URL
Sitemap URL

Lade alle Dateien in der Domäne
Lade nur Dateien in einem Unterpfad der angegebenen URL
nicht mehr als Dokumente

Hinweise

  • Einschränkung der Crawl Geschwindigkeit

    No more that four pages are loaded from the same host in one second (not more that 120 document per minute) to limit the load on the target server.
  • Ziel Balancer

    Ein zweiter Crawl für einen anderen Host erhöht den Durchsatz auf ein Maximum von 240 Dokumenten pro Minute weil der der Crawler Balancer die Last über alle Hosts verteilt.
  • Hochgeschwindigkeits Crawlen

    Ein 'oberflächlicher Crawl' der nicht auf einen einzelnen Host (oder eine Seite) limitiert ist kann die Anzahl der Seiten pro Minute (ppm) auf unendlich viele Dokumente pro Minute erweitern wenn die Anzahl der Ziel Hosts hoch ist. Das kann erreicht werden durch Verwendung des Crawl Start (Expert) Servlets.
  • Geplante Steuerung

    Die geplante Ausführung von Crawls kann geändert oder entfernt werden mit der API Aktionen Steuerung.