YaCy 'agent-potekof-ufe-20': Crawl Start

Seiten Crawlen

Seiten Crawler: Downloaden aller Webseiten von einer gegebenen Domain oder Basis URL.

Seiten Crawl Start

Seite

Start URL (muss mit ... beginnen http:// https:// ftp:// smb:// file://)
Link Liste der URL
Sitemap URL

Pfad

Lade alle Dateien in der Domäne
Lade nur Dateien in einem Unterpfad der angegebenen URL

Einschränkungen

nicht mehr als

Dokumente

Kollektion

Start

Einschränkung der Crawl Geschwindigkeit
No more that four pages are loaded from the same host in one second (not more that 120 document per minute) to limit the load on the target server.
Ziel Balancer
Ein zweiter Crawl für einen anderen Host erhöht den Durchsatz auf ein Maximum von 240 Dokumenten pro Minute weil der der Crawler Balancer die Last über alle Hosts verteilt.
Hochgeschwindigkeits Crawlen
Ein 'oberflächlicher Crawl' der nicht auf einen einzelnen Host (oder eine Seite) limitiert ist kann die Anzahl der Seiten pro Minute (ppm) auf unendlich viele Dokumente pro Minute erweitern wenn die Anzahl der Ziel Hosts hoch ist. Das kann erreicht werden durch Verwendung des Crawl Start (Expert) Servlets.
Geplante Steuerung
Die geplante Ausführung von Crawls kann geändert oder entfernt werden mit der API Aktionen Steuerung.