Nutch

Apache Nutch
Логотип программы Apache Nutch
Тип библиотека Java[вд], библиотека функций и поисковый робот
Разработчик Apache Software Foundation
Написана на Java
Операционная система Кроссплатформенное программное обеспечение
Аппаратная платформа Java Virtual Machine
Последняя версия
Репозиторий github.com/apache/nutch
Читаемые форматы файлов:
Web ARChive файл
Создаваемые форматы файлов:
Web ARChive файл
Состояние Активный
Лицензия Apache License 2
Сайт nutch.apache.org
Логотип Викисклада Медиафайлы на Викискладе

Apache Nutch — модульный фреймворк для построения поисковых систем, написанный на языке Java и основанный на технологиях Lucene, Solr, Tika, Hadoop и Gora, адаптированных для специфики поиска в интернете (например, поддерживается crawler, база ссылочной связи, парсинг HTML и других форматов). Архитектура Nutch позволяет разработчикам создавать плагины для обработки нового медиаконтента, получение данных через нестандартные каналы для формирования типовых запросов или организации поискового кластера.

Система предоставляет средства для построения высокомасштабных систем индексации, отвлеченных от типа хранилища, что позволяет использовать такие хранилища для больших объемов данных, как Apache Accumulo, Apache Avro, Apache Cassandra, Apache HBase и HDFS, так и SQL-базы и размещение в памяти NoSQL БД.

Использование

На базе Nutch 2.0, запущенного поверх 34-узлового Hadoop-кластера, построен поисковый сервис компании Kalooga, в индексе которого находится более миллиарда страниц[2].

На основе Nutch построены поисковые системы:

  • Creative Commons Search — запущен в 2004 году, имплементация Nutch заменена в 2006[3][4][5]
  • DiscoverEd — прототип поиска по открытым образовательных ресурсам, разрабатывается Creative Commons
  • Krugle
  • MozDex
  • Wikia Search — запущен в 2008 году, закрыт в 2009[6][7]
  • search2.net

Примечания

  1. Apache Nutch 1.19 (src-tar, src-zip, bin-tar and bin-zip) — 2022.
  2. Релиз поискового движка Apache Nutch 2.0  (неопр.). Дата обращения: 9 января 2017. Архивировано 14 июля 2012 года.
  3. Our Updated Search  (неопр.). Creative Commons (3 сентября 2004). Дата обращения: 9 января 2017. Архивировано 7 сентября 2011 года.
  4. Creative Commons Unique Search Tool Now Integrated into Firefox 1.0  (неопр.). Creative Commons (22 ноября 2004). Архивировано из оригинала 22 июля 2013 года.
  5. New CC search UI  (неопр.). Creative Commons (2 августа 2006). Дата обращения: 9 января 2017. Архивировано 7 ноября 2011 года.
  6. Where can I get the source code for Wikia Search?  (неопр.) Дата обращения: 9 января 2017. Архивировано из оригинала 4 ноября 2011 года.
  7. Update on Wikia – doing more of what’s working  (неопр.). Дата обращения: 9 января 2017. Архивировано 3 мая 2009 года.

Ссылки

  • nutch.apache.org — официальный сайт Nutch
  • Официальная вики
  • Building Nutch: Open Source Search(2004)- ACM Queue vol. 2, no. 2
  • Статья о Nutch(2003)- Search Engine Watch
  • Еще статья о Nutch(2003)- Tech News World
  • Официальная страница проекта Hadoop
Перейти к шаблону «Apache»
Проекты верхнего уровня
Подпроекты
Apache Commons
Lucene
DB[вд]
  • Derby
  • Torque[англ.]
  • DdlUtils[англ.]
  • OJB[англ.]
  • JDO[англ.]
Apache Web Services[англ.]
  • Axis[англ.]
  • Axis2[англ.]
  • CXF
  • WS-Commons[англ.]
  • EWS[англ.]
  • JaxMe[англ.]
  • jUDDI[англ.]
  • Kandula[англ.]
  • Mirae[англ.]
  • Muse[англ.]
  • Pubscribe[англ.]
  • Sandesha[англ.]
  • Scout[англ.]
  • SOAP[англ.]
  • Synapse[англ.]
  • TSIK[англ.]
  • Tuscany[англ.]
  • Woden[англ.]
  • WSIF[англ.]
  • WSRF[англ.]
  • WSS4J[англ.]
  • XML-RPC[англ.]
Другие проекты
Развивающиеся проекты (Incubator)
  • XAP[англ.]
  • River[англ.]
  • OpenEJB[англ.]
  • OpenJPA[англ.]
  • Graffito[англ.]
  • Tuscany[англ.]
  • Log4Net[англ.]
  • Roller
  • Felix
  • Abdera[англ.]
  • CeltiXfire[англ.]
  • FtpServer[англ.]
  • Heraldry[англ.]
  • Ivy[англ.]
  • JuiCE[англ.]
  • Kabuki[англ.]
  • Lokahi[англ.]
  • Lucene.Net[англ.]
  • mod_ftp[англ.]
  • NMaven[англ.]
  • Ode?!
  • stdcxx[англ.]
  • Woden[англ.]
  • WSRP4J[англ.]
  • Yoko[англ.]
  • WADI[англ.]
  • Qpid
  • TripleSoup[англ.]
  • UIMA[англ.]
  • Adobe Flex
Списанные проекты (Attic)
  • AxKit[англ.]
  • Beehive[англ.]
  • Cactus[англ.]
  • ECS[англ.]
  • Excalibur[англ.]
  • Harmony
  • HiveMind[англ.]
  • iBATIS[англ.]
  • Jakarta
  • ORO[англ.]
  • Regexp[англ.]
  • Shale
  • Slide[англ.]
  • Taglibs[англ.]