OpenWebSpider# v0.1 Command Line Arguments/Usage (German)

Kommandozeilenbefehle:

  • −−index, −i [URL]
    Die angegebene URL wird indexiert
  • −−add−hostlist
    Die mit “−−index” angegebene URL wird nicht
    indexiert; eine einfache Möglichkeit die URL nur der Liste der
    URL´s hinzuzufügen (Tabelle hostlist), Schreibt bzw. zeigt
    die ID und fertig! Dieses Kommando ist extrem hilfreich, wenn Du die
    Power der Tabelle: hostlist_extras nutzen willst [Mehr dazu: hostlist_extras regex] und Du die ID eines Hosts in der Tabelle brauchst.
  • −−threads, −t [1−100]
    Setzt die Anzahl der laufenden Threads
  • −s
    Single Mode: On (Standard: Off). Wenn Single Mode = On : Webseiten die
    bei “−−index” angegeben werden indexiert und
    fertig.
  • −−cache
    Speichert eine Kopie jeder indexierten Seite (Standard: Speichert keine Kopie)
  • −−cache−compressed
    Speichert eine komprimierte Kopie jeder indexierten Seite (Standard: Speichert keine Kopie)
  • −−rels, −r [1,2]
    Speichert
    die Beziehungen der einzelnen Seiten zueinander (Standard: Keine
    Speicherung der Beziehungen). Das ist absolut hilfreich um darzustellen
    “Wer linkt zu wem?” und “Wer bekommt Links vom wem?”
    1: speichert nur die Hostnamen (Beispiel: www.example.com linkt zu www.test.com; www.example.com linkt zu www.domain.net)

    2: speichert Hostnamen und Seiten (Example: www.example.com/index.html

    linkt zu: www.example.com/download.html, www.example.com/test.html and
    www.test.com/docs.php; …)

    Hier ein Beispiel was Du mit diesem Feature machen kannst:

    http://lab.openwebspider.org/8like.php

  • −−add−external, −e
    fügt externe Hosts hinzu (Standard: fügt externe Hosts nicht zu).
    Wenn nichts angegeben wird, werden externe Hosts ignoriert und in Zukunft nicht indexiert..
  • −−conf−file [Dateiname]
    Setzt die Konfigurationsdatei (Standard: openwebspider.conf)

Einschränkungen setzen:

  • −−max−depth, −m [0−1000]
    Setzt die maximale Tiefe des Crawlers (Standard: −1 (Alles wird indexiert))
    (Tiefe) Depth Level = 0 : indexiert nur die Homepage
    (Tiefe) Depth Level = 1 : indexiert Homepage und alle direkt verlinkten Seiten

  • −−max−pages, −l [1−1000000]
    maximale Anzahl Seiten (pro Domain)
  • −−max−seconds, −c [1−100000]
    maximale Crawldauer in Sekunden (pro Domain)
  • −−max−kb, −k [1−100000]
    maximaler Download in Kb (pro Domain)
  • −−errors [1−1000]
    maximale Anzahl an HTTP Errors (pro Domain)

Hilfe:

  • −−help, −h

Neue Eigenschaften des OpenWebSpiderCS v0.1.1

  • −−crawl−delay [Sekunden]
    Erlaubt eine kleine Pause zwischen den einzelnen Crawls bei langsamen Rechnern (Standard: 0 Sekunden)
  • −−req−timeout [Sekunden]HTTP Request Timeout (in Sekunden) (Standard: 60 Sekunden)
  • −−stress−test [Anzahl]
    Lädt
    so oft wie angegeben die gleiche Seite herunter (mit
    −−index) und fertig (Beispiel: –index www.test.com
    –stress-test 500)
    Hilfreich bei umfangreichen (Geschwindigkeits-)Test des Webservers

Neue Eigenschaften des OpenWebSpiderCS v0.1.2

  • −−images
    Indexiert Bilder
  • −−req−timeout [Sekunden]HTTP Request Timeout (in Sekunden) (Standard: 60 Sekunden)

    Achtung: OpenWebSpider# benötigt keine
    Konfigurationsdatei und einen MySQL Server und prüft nicht die
    robots.txt (im stress-test mode)

Many thanks to Ronny Behr

Leave a Reply