Kommandozeilenbefehle:
- −−index, −i [URL]
Die angegebene URL wird indexiert - −−add−hostlist
Die mit “−−index” angegebene URL wird nicht
indexiert; eine einfache Möglichkeit die URL nur der Liste der
URL´s hinzuzufügen (Tabelle hostlist), Schreibt bzw. zeigt
die ID und fertig! Dieses Kommando ist extrem hilfreich, wenn Du die
Power der Tabelle: hostlist_extras nutzen willst [Mehr dazu: hostlist_extras regex] und Du die ID eines Hosts in der Tabelle brauchst. - −−threads, −t [1−100]
Setzt die Anzahl der laufenden Threads - −s
Single Mode: On (Standard: Off). Wenn Single Mode = On : Webseiten die
bei “−−index” angegeben werden indexiert und
fertig. - −−cache
Speichert eine Kopie jeder indexierten Seite (Standard: Speichert keine Kopie) - −−cache−compressed
Speichert eine komprimierte Kopie jeder indexierten Seite (Standard: Speichert keine Kopie) - −−rels, −r [1,2]
Speichert
die Beziehungen der einzelnen Seiten zueinander (Standard: Keine
Speicherung der Beziehungen). Das ist absolut hilfreich um darzustellen
“Wer linkt zu wem?” und “Wer bekommt Links vom wem?”
1: speichert nur die Hostnamen (Beispiel: www.example.com linkt zu www.test.com; www.example.com linkt zu www.domain.net)2: speichert Hostnamen und Seiten (Example: www.example.com/index.html
linkt zu: www.example.com/download.html, www.example.com/test.html and
www.test.com/docs.php; …)Hier ein Beispiel was Du mit diesem Feature machen kannst:
- −−add−external, −e
fügt externe Hosts hinzu (Standard: fügt externe Hosts nicht zu).
Wenn nichts angegeben wird, werden externe Hosts ignoriert und in Zukunft nicht indexiert.. - −−conf−file [Dateiname]
Setzt die Konfigurationsdatei (Standard: openwebspider.conf)
Einschränkungen setzen:
- −−max−depth, −m [0−1000]
Setzt die maximale Tiefe des Crawlers (Standard: −1 (Alles wird indexiert))
(Tiefe) Depth Level = 0 : indexiert nur die Homepage
(Tiefe) Depth Level = 1 : indexiert Homepage und alle direkt verlinkten Seiten…
- −−max−pages, −l [1−1000000]
maximale Anzahl Seiten (pro Domain) - −−max−seconds, −c [1−100000]
maximale Crawldauer in Sekunden (pro Domain) - −−max−kb, −k [1−100000]
maximaler Download in Kb (pro Domain) - −−errors [1−1000]
maximale Anzahl an HTTP Errors (pro Domain)
Hilfe:
- −−help, −h
Neue Eigenschaften des OpenWebSpiderCS v0.1.1
- −−crawl−delay [Sekunden]
Erlaubt eine kleine Pause zwischen den einzelnen Crawls bei langsamen Rechnern (Standard: 0 Sekunden) - −−req−timeout [Sekunden]HTTP Request Timeout (in Sekunden) (Standard: 60 Sekunden)
- −−stress−test [Anzahl]
Lädt
so oft wie angegeben die gleiche Seite herunter (mit
−−index) und fertig (Beispiel: –index www.test.com
–stress-test 500)
Hilfreich bei umfangreichen (Geschwindigkeits-)Test des Webservers
Neue Eigenschaften des OpenWebSpiderCS v0.1.2
- −−images
Indexiert Bilder - −−req−timeout [Sekunden]HTTP Request Timeout (in Sekunden) (Standard: 60 Sekunden)
Achtung: OpenWebSpider# benötigt keine
Konfigurationsdatei und einen MySQL Server und prüft nicht die
robots.txt (im stress-test mode)
Many thanks to Ronny Behr