YaCy 'agent-potekof-ufe-20': Crawl Start

Experten Crawler

Crawler/Spider

Netzwerk Harvesting

Click on this API button to see a documentation of the POST request parameter for crawl starts.

Experten Crawl Start

Starte Crawling Job: Sie können hier URLs angeben, die gecrawlt werden sollen und dann das Crawling starten. "Crawling" bedeutet, dass YaCy die angegebene Webseite runterlädt, alle Links extrahiert und dann den Inhalt hinter diesen Links lädt. Dies wird solange wiederholt wie unter "Crawling Tiefe" angegeben. Ein Crawl kann auch mit wget gestartet werden unter Verwendung der POST Argumente für diese Webseite.

Crawl Job

Ein Crawl Job besteht aus einem oder mehreren Startpunkten, Crawl Limitierungen und einer Dokumenten Frischheits-Regel.

Startpunkt

Eine Start URL oder eine Liste von URLs: (muss mit http:// https:// ftp:// smb:// file:// beginnen): Definiere die Start-URL(s) hier. Die können mehr als eine URL angeben und diese bitte mit einer URL pro Zeile. Jede dieser URLs ist die Wurzel für einen Crawl Start. Existierende Start URLs werden immer neu geladen. Andere bereits besuchte Seiten werden als 'doppelt' aussortiert, wenn diese nicht ausdrücklich per Re-crawl Option zugelassen wurden.

Von Linkliste der URL
Von Sitemap
Von Datei (Verwende Pfad einer Datei auf dem lokalen Dateisystem)

Crawler Filter

Das sind Limitierungen auf den Crawl-Stacker. Die Filter werden angewandt bevor eine Webseite geladen wurde.

Crawling Tiefe

Dies definiert, wie oft der Crawler eingebetteten Links (von Links ...) in Webseiten folgen wird. 0 bedeutet, dass nur die Seite unter "Startpunkt" dem Index zugefügt wird. 2-4 ist gut für normales Indexieren. Werte über 8 sind nicht nützlich, denn eine Suche mit Suchtiefe 8 würde ungefähr 25.600.000.000 Seiten indexieren, vielleicht sogar das ganze WWW. auch alle verlinkten und nicht-parsbaren Dokumente

Unlimitierte Crawl Tiefe für URLs auf die folgendes zutrifft

Maximale Seiten per Domain

Sie können die maximale Anzahl an Seiten, die von einer einzelnen Domain gefunden und indexiert werden, mit dieser Option begrenzen. Sie können diese Option auch mit dem 'Auto-Dom-Filter' kombinieren, so dass das Limit für alle Domains mit der angegebenen Tiefe gilt. Domains ausserhalb der angegebenen Tiefe werden einfach aussortiert. Benutzen: Seitenanzahl:

Verschiedene Einschränkungen

Ein Fragezeichen ist normalerweise ein Hinweis auf eine dynamische Seite. URLs mit dynamischem Inhalt sollten normalerweise nicht gecrawlt werden. Wie auch immer, manchmal gibt es Seiten mit festem Inhalt, die nur von URLs zu erreichen sind, die ein Fragezeichen enthalten. Wenn Sie unsicher sind, aktivieren Sie diese Funktion nicht, um Crawl Schleifen zu vermeiden. Gxxg1e folgt Frames NICHT aber wir machen das in den Standardeinstellungen, um reicheren Kontant zu bekommen. 'nofollow' in den robots Metadaten kann ausser Kraft gesetzt werden. Das wirkt sich jedoch nicht auf die Einhaltung der robots.txt aus welche nie ignoriert wird. Akzeptiere URLs mit Fragezeichen ('?') im Abfrage Part:
Beachte noindex in der HTML robots Datei:
Obey html-robots-nofollow:

Media Type detection

Not loading URLs with unsupported file extension is faster but less accurate. Indeed, for some web resources the actual Media Type is not consistent with the URL file extension. Here are some examples:

https://en.wikipedia.org/wiki/.de : the .de extension is unknown, but the actual Media Type of this page is text/html
https://en.wikipedia.org/wiki/Ask.com : the .com extension is not supported (executable file format), but the actual Media Type of this page is text/html
https://commons.wikimedia.org/wiki/File:YaCy_logo.png : the .png extension is a supported image format, but the actual Media Type of this page is text/html

Do not load URLs with an unsupported file extension Always cross check file extension against Content-Type header

Lade Filter auf URLs

Der Filter ist ein Regülärer Ausdruck. Example: to allow only urls that contain the word 'science', set the must-match filter to '.*science.*'. Sie können aber auch eine automatische Domain-Beschränkung benutzen, um eine einzelne Domain komplett zu crawlen. Attention: you can test the functionality of your regular expressions using the Regular Expression Tester within YaCy.

muss zutreffen
Auf Startdomain beschränken(s)
Auf Sub-Pfad beschränken(s)
Filter nutzen	(darf nicht leer sein)
darf nicht zutreffen

Load Filter on URL origin of links

Der Filter ist ein Regülärer Ausdruck. Example: to allow loading only links from pages on example.org domain, set the must-match filter to '.*example.org.*'. Attention: you can test the functionality of your regular expressions using the Regular Expression Tester within YaCy.

muss zutreffen	(darf nicht leer sein)
darf nicht zutreffen

Lade Filter auf IPs

muss zutreffen	(darf nicht leer sein)
darf nicht zutreffen

Liste aller Ländercodes die zutreffen müssen

Crawls können auf bestimmte Länder beschränkt werden. Dafür wird der Ländercode verwendet, der aus der IP des Servers berechnet wird welcher die Seite hostet. Der Filter ist kein regulärer Ausdruck aber eine Liste mit Ländercodes und Komma als Trennzeichen. keine Einschränkung anhand von Ländercodes
Filter nutzen

Dokument-Filter

Das sind Limitierungen auf den Index-Feeder. Die Filter werden angewandt wenn eine Webseite geladen wurde.

Filter auf URLs

Der Filter ist ein Regülärer Ausdruck der auf die URLs nicht zutreffen darf, damit der Inhalt der URL indexiert werden darf. Attention: you can test the functionality of your regular expressions using the Regular Expression Tester within YaCy.

muss zutreffen	(darf nicht leer sein)
darf nicht zutreffen

Filter on Content of Document (all visible text, including camel-case-tokenized url and title)

muss zutreffen	(darf nicht leer sein)
darf nicht zutreffen

Filter on Document Media Type (aka MIME type)

Der Filter ist ein Regülärer Ausdruck that must match with the document Media Type (also known as MIME Type) to allow the URL to be indexed. Standard Media Types are described at the IANA registry. Attention: you can test the functionality of your regular expressions using the Regular Expression Tester within YaCy.

muss zutreffen
darf nicht zutreffen

Solr query filter on any active indexed field(s)

Each parsed document is checked against the given Solr query before being added to the index. The query must be written in respect to the standard Solr query syntax.

muss zutreffen

darf nicht zutreffen

Content Filter

These are limitations on parts of a document. The filter will be applied after a web page was loaded.

Filter div or nav class names

set of CSS class names

comma-separated list of <div> or <nav> element class names which should be filtered out

Aufräumen vor dem Crawl Start

Clean up search events cache: Check this option to be sure to get fresh search results including newly crawled documents. Beware that it will also interrupt any refreshing/resorting of search results currently requested from browser-side.
Kein Löschen: Nachdem ein Crawl abgeschlossen wurde, werden Dokumenten ebenfalls überfällig und eventuell werden diese auch auf dem Ziel-Host gelöscht. Um diese alten Dateien aus dem Suchindex zu entfernen ist es nicht ausreichend sie für einen erneutes Laden vorzusehen - aber es kann notwending sein diese ebenfalls zu Löschen weil sie ganz einfach nicht mehr existieren. Verwendung in Kombination mit Re-Crawl während diese Zeit länger sein sollte. Lösche keine Dokumente bevor der Crawl gestartet wird.
Delete sub-path: Lösche alle Dokumente (im angegebenen Unterpfad) für jeden Host in der URL Startliste von diesem Host.
Delete only old: Behandle Dokumente die zuvor geladen wurden als abgelaufen und lösche sie bevor der Crawl gestartet wird.

Dubletten Check Regeln

Keine Dubletten: Ein Web Crawl macht einen Dubletten Check auf alle im Internet gefundenen Links gegen die interne Datenbank. Wenn dieselbe URL wieder gefunden wird, dann wird die URL als Dublette behandelt wenn Sie die 'Keine Dubletten' Option ausgewählt haben. Eine URL wird wieder geladen, wenn sie ein bestimmtes Alter erreicht hat. Um diese Option zu verwenden bitte die Option "Neu Laden" markieren. Lade nie eine Seite die schon bekannt ist. Nur die Start-URL kann erneut geladen werden.
Neu Laden: Behandle Dokumente die zuvor geladen wurden als abgelaufen und lade sie erneut. Wenn sie jünger sind werden sie ignoriert.

Dokumenten Cache

Speichern im Web-Cache: Diese Option ist standardmäßig beim Proxy aktiviert, wird aber zum reinen Crawlen nicht gebraucht.
Regeln für die Nutzung des Web Caches: Die Caching Regeln legen fest wann der Cache während des Crawlen verwendet wird: kein Cache: Den Cache nie verwenden, allen Inhalt frisch von der Online Quelle bei frischem Cache Hit: Verwende den Cache, wenn ein Treffer im Cache existiert und dieser aktuell ist. bei Cache Hit: Verwende den Cache, wenn ein Treffer existiert ohne die Aktualität zu prüfen. Andernfalls verwende die Quelle online; nur Cache: Gehe niemals online, verwende nur den Cache Inhalt. Wenn kein Cache existiert, behandle den Inhalt als nicht verfügbar kein Cache bei frischem Cache Hit bei Cache Hit nur Cache

Robot Verhalten

Verwende speziellen User-Agent und Robot Verifizierung: Because YaCy can be used as replacement for commercial search appliances (like the Google Search Appliance aka GSA) the user must be able to crawl all web pages that are granted to such commercial platforms. Diese Option nicht zu haben könnte ein starkes Handicap für die professionelle Nutzung dieser Software darstellen. Darum können Sie hier alternative User-Agents auswählen, die verschiedene Craw Timings haben und sich selbst auch mit einem anderen User-Agent ausweisen und die jeweiligen robots Regeln anwenden.

Snapshot Creation

Max Depth for Snapshots: Snapshots are xml metadata and pictures of web pages that can be created during crawling time. The xml data is stored in the same way as a Solr search result with one hit and the pictures will be stored as pdf into subdirectories of HTCACHE/snapshots/. From the pdfs the jpg thumbnails are computed. Snapshot generation can be controlled using a depth parameter; that means a snapshot is only be generated if the crawl depth of a document is smaller or equal to the given number here. If the number is set to -1, no snapshots are generated.
Multiple Snapshot Versions: replace old snapshots with new one add new versions for each crawl
must-not-match filter for snapshot generation
Image Creation: Only XML snapshots can be generated. as the wkhtmltopdf util is not found by YaCy on your system. It is required to generate PDF snapshots from crawled pages that can then be converted to images.

Index Attributes

Indexing: Dies aktiviert die Indexierung von Webseiten, die der Crawler runterlädt. Dies sollte standardmässig aktiviert sein, ausser Sie wollen den Dokumenten Cache ohne Indexierung füllen. Indexiere Text: Indexiere Medien:
Crawl Ergebnis zu Kollektion(en) hinzufügen: Ein Crawl Ergebnis kann mit Namen getagged werden die Kandidaten für eine Kollektion Anfrage sind. Diese Tags können ausgewählt werden mit dem GSA Interface durch Verwendung des 'site' Befehls. Um diese Option zu verwenden, muss das 'collection_sxt'-Feld eingeschalten werden auf der Seite für das Solr Schema
Time Zone Offset: The time zone is required when the parser detects a date in the crawled web page. Content can be searched with the on: - modifier which requires also a time zone when a query is made. To normalize all given dates, the date is stored in UTC time zone. To get the right offset from dates without time zones to UTC, this offset must be given here. The offset is given in minutes; Time zone offsets for locations east of UTC must be negative; offsets for zones west of UTC must be positve.

Erste Schritte

Überwachung

Produktion

Administration

Suchmaskenintegration

Experten Crawler

Crawler/Spider

Netzwerk Harvesting

Experten Crawl Start