API Click on this API button to see a documentation of the POST request parameter for crawl starts.

Experten Crawl Start

Starte Crawling Job:  Sie können hier URLs angeben, die gecrawlt werden sollen und dann das Crawling starten. "Crawling" bedeutet, dass YaCy die angegebene Webseite runterlädt, alle Links extrahiert und dann den Inhalt hinter diesen Links lädt. Dies wird solange wiederholt wie unter "Crawling Tiefe" angegeben. Ein Crawl kann auch mit wget gestartet werden unter Verwendung der POST Argumente für diese Webseite.

Crawl Job

Ein Crawl Job besteht aus einem oder mehreren Startpunkten, Crawl Limitierungen und einer Dokumenten Frischheits-Regel.

Startpunkt
Eine Start URL oder eine Liste von URLs:
(muss mit http:// https:// ftp:// smb:// file:// beginnen)
infoDefiniere die Start-URL(s) hier. Die können mehr als eine URL angeben und diese bitte mit einer URL pro Zeile. Jede dieser URLs ist die Wurzel für einen Crawl Start. Existierende Start URLs werden immer neu geladen. Andere bereits besuchte Seiten werden als 'doppelt' aussortiert, wenn diese nicht ausdrücklich per Re-crawl Option zugelassen wurden.  
empty
Von Linkliste der URL

Von Sitemap
Von Datei (Verwende Pfad einer Datei
auf dem lokalen Dateisystem)
Crawler Filter

Das sind Limitierungen auf den Crawl-Stacker. Die Filter werden angewandt bevor eine Webseite geladen wurde.

Crawling Tiefe
info Dies definiert, wie oft der Crawler eingebetteten Links (von Links ...) in Webseiten folgen wird. 0 bedeutet, dass nur die Seite unter "Startpunkt" dem Index zugefügt wird. 2-4 ist gut für normales Indexieren. Werte über 8 sind nicht nützlich, denn eine Suche mit Suchtiefe 8 würde ungefähr 25.600.000.000 Seiten indexieren, vielleicht sogar das ganze WWW.     auch alle verlinkten und nicht-parsbaren Dokumente
Unlimitierte Crawl Tiefe für URLs auf die folgendes zutrifft
Maximale Seiten per Domain
info Sie können die maximale Anzahl an Seiten, die von einer einzelnen Domain gefunden und indexiert werden, mit dieser Option begrenzen. Sie können diese Option auch mit dem 'Auto-Dom-Filter' kombinieren, so dass das Limit für alle Domains mit der angegebenen Tiefe gilt. Domains ausserhalb der angegebenen Tiefe werden einfach aussortiert. :    :
info Ein Fragezeichen ist normalerweise ein Hinweis auf eine dynamische Seite. URLs mit dynamischem Inhalt sollten normalerweise nicht gecrawlt werden. Wie auch immer, manchmal gibt es Seiten mit festem Inhalt, die nur von URLs zu erreichen sind, die ein Fragezeichen enthalten. Wenn Sie unsicher sind, aktivieren Sie diese Funktion nicht, um Crawl Schleifen zu vermeiden. Gxxg1e folgt Frames NICHT aber wir machen das in den Standardeinstellungen, um reicheren Kontant zu bekommen. 'nofollow' in den robots Metadaten kann ausser Kraft gesetzt werden. Das wirkt sich jedoch nicht auf die Einhaltung der robots.txt aus welche nie ignoriert wird. Akzeptiere URLs mit Fragezeichen ('?') im Abfrage Part:
Beachte noindex in der HTML robots Datei:
Obey html-robots-nofollow:
Media Type detection
Media Type checking info Not loading URLs with unsupported file extension is faster but less accurate. Indeed, for some web resources the actual Media Type is not consistent with the URL file extension. Here are some examples:
Lade Filter auf URLs
info Der Filter ist ein Regülärer Ausdruck. Example: to allow only urls that contain the word 'science', set the must-match filter to '.*science.*'. Sie können aber auch eine automatische Domain-Beschränkung benutzen, um eine einzelne Domain komplett zu crawlen. Attention: you can test the functionality of your regular expressions using the Regular Expression Tester within YaCy.
muss zutreffen
Auf Startdomain beschränken(s)
Auf Sub-Pfad beschränken(s)
Filter nutzen (darf nicht leer sein)
darf nicht zutreffen
Load Filter on URL origin of links
info Der Filter ist ein Regülärer Ausdruck. Example: to allow loading only links from pages on example.org domain, set the must-match filter to '.*example.org.*'. Attention: you can test the functionality of your regular expressions using the Regular Expression Tester within YaCy.
muss zutreffen (darf nicht leer sein)
darf nicht zutreffen
Lade Filter auf IPs
muss zutreffen (darf nicht leer sein)
darf nicht zutreffen
info Crawls können auf bestimmte Länder beschränkt werden. Dafür wird der Ländercode verwendet, der aus der IP des Servers berechnet wird welcher die Seite hostet. Der Filter ist kein regulärer Ausdruck aber eine Liste mit Ländercodes und Komma als Trennzeichen. keine Einschränkung anhand von Ländercodes
Filter nutzen  
Dokument-Filter

Das sind Limitierungen auf den Index-Feeder. Die Filter werden angewandt wenn eine Webseite geladen wurde.

Filter auf URLs
info Der Filter ist ein Regülärer Ausdruck der auf die URLs nicht zutreffen darf, damit der Inhalt der URL indexiert werden darf. Attention: you can test the functionality of your regular expressions using the Regular Expression Tester within YaCy.
muss zutreffen (darf nicht leer sein)
darf nicht zutreffen
Filter on Content of Document
(all visible text, including camel-case-tokenized url and title)
muss zutreffen (darf nicht leer sein)
darf nicht zutreffen
Filter on Document Media Type (aka MIME type)
Media Type filter info Der Filter ist ein Regülärer Ausdruck that must match with the document Media Type (also known as MIME Type) to allow the URL to be indexed. Standard Media Types are described at the IANA registry. Attention: you can test the functionality of your regular expressions using the Regular Expression Tester within YaCy.
muss zutreffen
darf nicht zutreffen
Solr query filter on any active indexed field(s)
Solr query filter info Each parsed document is checked against the given Solr query before being added to the index. The query must be written in respect to the standard Solr query syntax.
muss zutreffen
darf nicht zutreffen
Content Filter

These are limitations on parts of a document. The filter will be applied after a web page was loaded.

Filter div or nav class names
set of CSS class namescomma-separated list of <div> or <nav> element class names which should be filtered out
Aufräumen vor dem Crawl Start
Clean up search events cache info Check this option to be sure to get fresh search results including newly crawled documents. Beware that it will also interrupt any refreshing/resorting of search results currently requested from browser-side.
Kein Löschen
info Nachdem ein Crawl abgeschlossen wurde, werden Dokumenten ebenfalls überfällig und eventuell werden diese auch auf dem Ziel-Host gelöscht. Um diese alten Dateien aus dem Suchindex zu entfernen ist es nicht ausreichend sie für einen erneutes Laden vorzusehen - aber es kann notwending sein diese ebenfalls zu Löschen weil sie ganz einfach nicht mehr existieren. Verwendung in Kombination mit Re-Crawl während diese Zeit länger sein sollte. Lösche keine Dokumente bevor der Crawl gestartet wird.
Delete sub-path
Lösche alle Dokumente (im angegebenen Unterpfad) für jeden Host in der URL Startliste von diesem Host.
Delete only old
Behandle Dokumente die zuvor geladen wurden als abgelaufen und lösche sie bevor der Crawl gestartet wird.
Dubletten Check Regeln
Keine Dubletten
info Ein Web Crawl macht einen Dubletten Check auf alle im Internet gefundenen Links gegen die interne Datenbank. Wenn dieselbe URL wieder gefunden wird, dann wird die URL als Dublette behandelt wenn Sie die 'Keine Dubletten' Option ausgewählt haben. Eine URL wird wieder geladen, wenn sie ein bestimmtes Alter erreicht hat. Um diese Option zu verwenden bitte die Option "Neu Laden" markieren. Lade nie eine Seite die schon bekannt ist. Nur die Start-URL kann erneut geladen werden.
Neu Laden
Behandle Dokumente die zuvor geladen wurden als abgelaufen und lade sie erneut. Wenn sie jünger sind werden sie ignoriert.
Dokumenten Cache
info Diese Option ist standardmäßig beim Proxy aktiviert, wird aber zum reinen Crawlen nicht gebraucht.
info Die Caching Regeln legen fest wann der Cache während des Crawlen verwendet wird: kein Cache: Den Cache nie verwenden, allen Inhalt frisch von der Online Quelle bei frischem Cache Hit: Verwende den Cache, wenn ein Treffer im Cache existiert und dieser aktuell ist. bei Cache Hit: Verwende den Cache, wenn ein Treffer existiert ohne die Aktualität zu prüfen. Andernfalls verwende die Quelle online; nur Cache: Gehe niemals online, verwende nur den Cache Inhalt. Wenn kein Cache existiert, behandle den Inhalt als nicht verfügbar kein Cache    bei frischem Cache Hit    bei Cache Hit    nur Cache
Robot Verhalten
info Because YaCy can be used as replacement for commercial search appliances (like the Google Search Appliance aka GSA) the user must be able to crawl all web pages that are granted to such commercial platforms. Diese Option nicht zu haben könnte ein starkes Handicap für die professionelle Nutzung dieser Software darstellen. Darum können Sie hier alternative User-Agents auswählen, die verschiedene Craw Timings haben und sich selbst auch mit einem anderen User-Agent ausweisen und die jeweiligen robots Regeln anwenden.
Snapshot Creation
info Snapshots are xml metadata and pictures of web pages that can be created during crawling time. The xml data is stored in the same way as a Solr search result with one hit and the pictures will be stored as pdf into subdirectories of HTCACHE/snapshots/. From the pdfs the jpg thumbnails are computed. Snapshot generation can be controlled using a depth parameter; that means a snapshot is only be generated if the crawl depth of a document is smaller or equal to the given number here. If the number is set to -1, no snapshots are generated.
replace old snapshots with new one    add new versions for each crawl
Only XML snapshots can be generated. as the wkhtmltopdf util is not found by YaCy on your system. It is required to generate PDF snapshots from crawled pages that can then be converted to images.
Index Attributes
Indexing
info Dies aktiviert die Indexierung von Webseiten, die der Crawler runterlädt. Dies sollte standardmässig aktiviert sein, ausser Sie wollen den Dokumenten Cache ohne Indexierung füllen. :     :
info Ein Crawl Ergebnis kann mit Namen getagged werden die Kandidaten für eine Kollektion Anfrage sind. Diese Tags können ausgewählt werden mit dem GSA Interface durch Verwendung des 'site' Befehls. Um diese Option zu verwenden, muss das 'collection_sxt'-Feld eingeschalten werden auf der Seite für das Solr Schema
info The time zone is required when the parser detects a date in the crawled web page. Content can be searched with the on: - modifier which requires also a time zone when a query is made. To normalize all given dates, the date is stored in UTC time zone. To get the right offset from dates without time zones to UTC, this offset must be given here. The offset is given in minutes; Time zone offsets for locations east of UTC must be negative; offsets for zones west of UTC must be positve.