Apache Nutch

Screenshot Software:
Apache Nutch
Detalii soft:
Versiune: 2.3 Actualizat
Incarca data: 17 Jul 15
Producător: Sami Siren
Licenţă: Gratuit
Popularitate: 12

Rating: 1.0/5 (Total Votes: 2)

proiect Apache Nutch este un open source, scalabilă software crawler web, foarte extensibil și gratuit bazat pe Web, care se bazează pe Apache Lucene (versiune Java) bibliotecă.
Aceasta adaugă specifice web, cum ar fi un crawler, o bază de date link-grafic, interpretoare pentru HTML și alte formate de documente, etc. Acesta este dezvoltat și distribuit de Fundația Apache, ea două ramuri distincte.
Fiind modular și pluggable, Apache Nutch are beneficiile sale, prin furnizarea de interfețe extensibile, cum ar fi analizare, Index și ScoringFilter pentru implementări personalizate, cum ar fi Apache Tika pentru parsarea.
Mai mult decât atât, Apache Nutch este proiectat pentru a rula pe o singură mașină, dar este mult mai puternic atunci când rulează într-un cluster Hadoop. Există indexare pluggable pentru Elastic Căutare, Apache Solr, etc

Ce este nou în această versiune:.

  • nuce-1779 Aplica formatare a codului (lewismc)
  • nuce-1907 ieșire greșită a outlinks gazdelor în HostDbUpdateReducer (lewismc)
  • nuce-1856 Document webpage.avsc și host.avsc (lewismc)
  • nuce-1834 comportament GeneratorMapper depinde de nivelul de jurnal (Gerhard Gossen prin snagel)
  • nuce-1899 actualizare Restlet lib pentru a preveni eșecul de constructii (Talat)
  • nuce-1797 remove pachet nefolosit oanhtml (Saurabh Chhajed prin snagel)
  • nuce-1888 Specificati HTMLMapper de a utiliza în TikaParser (Halil Simsek prin jnioche)
  • nuce-1897 mai ușor de depanare a erorilor plugin XML (Markus)
  • nuce-1823 Upgrade la elasticsearch 1.4.1 (Phu Kieu, Markus, lewismc)
  • nuce-1829 Generator: imposibilitatea de a distinge erori reale (Mathieu Bouchard, jnioche, snagel)
  • Generator nuce-1778 nu logare numărul de URL-uri în lot corect (jnioche prin snagel)
  • nuce-1877 filtru Sufix URL să ignore șir de interogare în mod implicit (Markus prin snagel)
  • nuce-1825 protocol-http se poate bloca pentru anumite pagini web (Phu Kieu prin snagel)
  • nuce-1483 nu poate accesa cu crawlere sistem de fișiere cu protocol fișier plugin (Rogerio Pereira Araujo, Mengying Wang, snagel)
  • nuce-1885 Protocol-fișier ar trebui să trateze link-uri simbolice ca redirecturile (Mengying Wang, snagel)
  • nuce-1880 URLUtil nu ar trebui să adauge slash suplimentare pentru adrese URL de fișier (snagel)
  • nuce-1879 Regex URL Normalizer ar trebui să elimine mai multe slash-uri după fișiere: protocol (snagel)
  • nuce-1,820 câmp remove & quot; orig & quot; care dublează & quot; id & quot; (lewismc, snagel)
  • Upgrade nuce-1843 pentru a Gora 0,5 (Talat, lewismc, Kiril Menshikov, drazzib)
  • nuce-1,883 bin / de accesare cu crawlere: funcția de utilizare a rula bin / nuce și verificați valoarea de ieșire (snagel)
  • țintă Eclipse Ant nuce-1882 pentru a adăuga calea de ieșire la src / test (snagel)
  • nuce-1827 Port nuce-1467 și nuce-1561 pentru a 2.x (snagel)
  • Upgrade nuce-1876 pentru a Tractoare Commons 0,5 (jnioche)
  • țintă Eclipse Ant nuce-1866 nu trebuie să ștergeți de execuție (nimafl prin lewismc)
  • nuce-1859 Asigurați-Nutch portul webapp configurabil (Nima Falaki prin lewismc)
  • Bug nuce-1848 in DashboardPage.html cazuri contra (Nima Falaki prin lewismc)
  • nuce-841 Creați o aplicație web-based pietonală pentru Nutch (Fjodor Vershinin prin lewismc)
  • nuce-1832 Asigurați muncă Nutch fără o indexare (mattmann prin lewismc)
  • nuce-1840 descrie funcția în SolrIndexWriter nu este corectă (minooie Kaveh prin jnioche)
  • Upgrade nuce-1837 Tika 1,6 (lewismc)
  • nuce-1829 Generator: imposibilitatea de a distinge erori reale (Mathieu Bouchard prin jnioche)
  • nuce-1828 bin / de accesare cu crawlere: manipularea incorectă a erorilor nuce (Mathieu Bouchard prin jnioche)
  • nuce-1693 TextMD5Signature calculate pe conținut textual (Tien Nguyen Manh, Markus prin snagel)
  • nuce-1409 Scoateți depreciat proprietăți db. {implicit, max} .fetch.interval, generate.max.per.host.by.ip (Matthias Agethle prin snagel)
  • nuce-1819 batchId în GeneratorJob (Fjodor Vershinin prin lewismc)
  • nuce-1,708 utilizare același ID atunci când indexarea și redirecționări ștergerea (snagel)
  • nuce-1817 Eliminați pom.xml de la sursă (jnioche)
  • nuce-1811 bin / JUnit nuce a utiliza JUnit 4 Runner de testare (snagel)
  • nuce-1,776 cale Log fișier plugin.folder incorect (Diaa prin snagel)
  • nuce-1566 bin / nuce, pentru a permite spațiu în căile (tejasp, snagel)
  • nuce-1605 detector tip MIME recunoaște xlsx ca fișier zip (snagel)
  • nuce-385 Îmbunătățirea descrierea configurare fir legate de Fetcher (jnioche, Lufeng)
  • nuce-1,798 script Crawl nu asteptare comanda index corect (Aaron Bedward prin jnioche)
  • nuce-1769 REST API refactorizare (Fjodor Vershinin prin lewismc)
  • nuce-1633 slf4j este furnizat de Hadoop și nu ar trebui să fie incluse în fișierul de locuri de muncă (Kaveh minooie prin jnioche)
  • nuce-1787 actualizare și completă pagină imagine de ansamblu API doc (snagel)
  • nuce-1767 elimina un tratament special de & quot; params & quot; în link-uri relative (snagel)
  • nuce-1718 redefini http.robots.agent ca & quot; nume suplimentare agent & quot; (snagel, Tejas Patil, Daniel Kugel)
  • nuce-1796 Asigurarea Gora constructorii obiectelor sunt folosite ca să se opună constructori goale (snagel prin lewismc)
  • nuce-1590 [Securitate] Cadru vulnerabilitate injectabilă în Javadoc publicat (jnioche)
  • nuce-1736 nu pot fi preluate pagina dacă în afara de răspuns http conține Transfer-Encoding: chunked (YSC prin jnioche)
  • nuce-1782 NodeWalker pentru a reveni nodul curent (Markus)
  • nuce-1781 Actualizare Gora - * - mapping.xml și gora.proeprties pentru a reflecta Gora 0,4 (lewismc)
  • Upgrade nuce-1768 pentru a ElasticSearch 1.1.0 (jnioche)
  • -stats readdb nuce-1634 prezintă rezultatul de două ori (Kaveh minooie prin jnioche)
  • nuce-1780 TTL și gc_grace_seconds atribute lipsesc de la dosar Gora-Cassandra-mapping.xml (Kaveh minooie prin lewismc)
  • nuce-1676 Adaugă suport SSL rudimentare protocolului-http (jnioche, Markus)
  • nuce-1674 filtru de utilizare batchId pentru a permite scanarea (GORA-119) pentru Fetch, Parse, Actualizare, Index (Tien Nguyen Manh și Alparslan Avci prin jnioche)
  • Upgrade nuce-1714 pentru a Gora 0,4 (Alparslan Avci prin jnioche)
  • nuce-1,752 reguli Cache robots.txt pe protocol: gazdă: Port (snagel)
  • -nuce 1,613 timeout în protocol-httpclient când crawling aceeași gazdă cu & gt; 2 fire (brian44 prin jnioche)
  • Fetcher nuce-1182 pentru a vă conecta fire spânzurat (snagel)
  • nuce-1618 Turn de executie speculativa off pentru Preluarea (Talat)
  • nuce-1657 ORIGINAL_CHAR_ENCODING și CHAR_ENCODING_FOR_CONVERSION niciodată stabilit în HTMLParser (Talat)
  • reductor nuce-1725 CleaningJob nu se comite docs șterse. (ilhamikalkan prin Talat)
  • nuce-1,728 indexare-Solr plugin nu este șterge documentele din Solr (ilhamikalkan prin Talat)
  • nuce-1753 Eclipse problemă dependecy pentru 2.x (Talat)
  • nuce-1720 linii două exemplare în HttpBase.java (Walter Tietze prin jnioche)
  • nuce-797 URL nu au fost construite în mod corespunzător atunci când legătură țintă începe cu o & quot;? & quot; (Doug Cook, Robert Hohman, Stondet, ab prin snagel)
  • Upgrade nuce-1759 pentru a Tractoare Commons 0,4 (jnioche)
  • nuce-1700 Remove cod depreciat în src / plugin / creativecommons / build.xml (lewismc)
  • nuce-1,761 script Crawl nu pentru a găsi fișierul de locuri de muncă în cazul în care nu a început din interior bin dir (David Hosking, jnioche)
  • nuce-1603 ZIP parser plânge trunchiată fișier PDF (snagel prin lewismc)
  • nuce-1743 parsechecker pentru a arăta outlinks (snagel)
  • nuce-1732 line cmd mai bună analiză pentru NutchServer (Fjodor Vershinin prin lewismc)
  • nuce-1751 ancore goale nu ar trebui să indice (Sertac Turkel prin lewismc)
  • nuce-1733 analizare-html pentru a sprijini HTML5 definiții charset (snagel)
  • nuce-1727 lungime Configurabil pentru TLD (Sertac Turkel prin lewismc)
  • nuce-1738 Expunere numărul de URL-uri generate pe lot în GeneratorJob (Talat UYARER prin ewismc)
  • indexchecker nuce-1671 pentru a adăuga câmp (snagel, Lufeng) digera
  • nuce-1645 JUnit test de caz pentru Adaptive Fetch clasa Program (Yasin kılınç, Lufeng, Sertac Urkel prin snagel)
  • nuce-1478-analiza metatags și index-metadate plugin pentru seria 2.x Nutch (Kiran, Nguyen Anh Tien, Talat UYARER, Vangelis Karvounis prin lewismc)
  • Upgrade nuce-1729 pentru a Tika 1,5 (jnioche)
  • nuce-1721 Upgrade Tractoare comune 0,3 (tejasp)
  • nuce-1719 DomainStatistics eșuează în 2.x deoarece URL nu este neinversată (Gerhard Gossen prin lewismc)

  • Versiunile
  • nuce-1253 incompatibil neko și Xerces (snagel, lewismc, Talat UYARER)
  • nuce-1715 RobotRulesParser adaugă suplimentar '*' la numele roboți (tejasp)
  • nuce-356 Plugin depozit cache-ului poate duce la scurgeri de memorie (Enrico Triolo, Dogacan Guney prin Markus)
  • nuce-1164 teste Scrie JUnit pentru protocol-http (Sertac Turkel prin tejasp)
  • nuce-1710 Add Gora pachet logare la log4j.properties (lewismc)
  • nuce-1655 Indexer Plugin pentru Elastic Cauta (Talat UYARER prin lewismc)
  • nuce-1699 Tika Parser - imagine analizare Bug (Mehmet Zahid Yuzuguldu, snagel prin lewismc)
  • nuce-1568 Port arhitectura indexare pluggable pentru 2.x (Talat UYARER prin lewismc)
  • inlinks nuce-1672 se adaugă de două ori în DbUpdateReducer (Tien Nguyen Manh prin lewismc)
  • nuce-1667 updatedb ignore întotdeauna batchId (Tien Nguyen Manh prin lewismc)
  • nuce-1695 NutchDocument.toString () (Markus prin lewismc)
  • nuce-1696 permite utilizarea a (Gora) dependențe SNAPSHOT (lewismc)
  • nuce-1681 in URLUtil.java, metoda toUNICODE nu funcționează corect (A

Comentarii la Apache Nutch

Comentariile nu a fost găsit
Adauga comentarii
Porniţi pe imagini!