YACY

Материал из First-Leon
Перейти к: навигация, поиск

Настройки

Параметры прокси для i2p

  • Интранет индексирование
  • Robinson Mode
  • clientTimeout=100000
  • crawler.clientTimeout=100000
  • proxy.clientTimeout=100000
  • indexControl.timeout = 200000
  • indexDistribution.timeout = 200000
  • indexTransfer.timeout = 500000
  • Nutze Remote Proxy:yes
  • remoteProxyHost=xx.xx.xx.xx
  • remoteProxyPort=8118

Параметры индексирования

  • Crawling Depth=99
  • Speichern im Web-Cache=no
  • Regeln für die Nutzung des Web Caches=kein Cache
  • misc. Constraints Akzeptiere URLs mit query-part ('?')
  • Filter nutzen=(.*)\.com(.*)

Пример регулярных выражений (Java):

URL Must-Match Filter(что сканировать)

.*\.i2p.*

URL Must-Not-Match Filter (что не сканировать)

.*archlinux.i2p.*

Частичное удаление индекса

Delete by Solr Query
This is the most generic option: select a set of documents using a solr query.
q=host_s:*.com //Удалить все страницы с доменов в зоне com
q=-host_s:*.com //Удалить все страницы кроме "с доменов в зоне com"

Ссылки