Apache Nutch a fost construit pe partea de sus a Apache Lucene , un puternic motor de cautare Java.
Dezvoltatorii nuce modificat codebase Lucene, transformarea date agnostic Lucene codebase într-un proiect dedicat pentru căutarea de date pe Web specific.
Aceasta tehnologie poate fi folosită pentru a căuta pe pagini Web ca un server de căutare built-in, sau se târască pe Internet în căutarea de date pentru a analiza și a îndepărta în baza de date.
Nutch poate rula pe o singură mașină, dar funcționează mai bine în Hadoop grupuri.
Diverse plugin-uri sunt disponibile pentru extinderea spectrului de utilizare
Ce este nou în această versiune:.
- Asigurați-vă că nu există etichete duplicat în microformat-reltag set tag.
- O cădea mai bine înapoi valoare pentru câmpul data.
- Scapa de temut.
- Upgrade Hadoop 1.2.0.
- Upgrade Tika 1.3.
Ce este nou în versiunea 2.0:.
- Renamed HTMLParseFilter în ParseFilter
- Eliminare rămas roboți / cod de blocare IP în lib-http.
- Port de logare la slf4j.
- parser Externe susține atribut codare.
- Setări configurări Ivy nu includ Gora.
- Injector ar trebui să adauge metadate înainte de a apela injectedScore.
- Port Nutch de referință pentru Nutchbase.
- Adăugați analizare-html spate.
- MoreIndexingFilter format de dată dispărută.
- timeout pentru Parser.
- Încercați din nou interval în data crawl este setat la 0.
- Generați ieșire jurnal pentru indexator Solr și dedup.
- NutchConfiguration Îmbunătățirea.
- SolrDeleteDuplicates trebuie să cloneze obiecte SolrRecord.
- libs Hadoop nativ nu sunt disponibile prin Maven.
- Se separă mediile construi și de rulare.
Ce este nou în versiunea 1.5:
- Această versiune include o serie de îmbunătățiri, inclusiv upgrade-uri ale mai multor componente majore, inclusiv Tika 1.1 și Hadoop 1.0.0, îmbunătățiri LinkRank și elemente WebGraph, precum și o serie de noi plugin-uri care acoperă liste negre, filtrarea și parsare a numi doar câteva.
Ce este nou în versiunea 1.4:.
- Adăugat Solr 4x (trunchi) exemplu schema
- Adaugata '/ rulare "la SVN ignora.
- Application / xhtml + xml ar trebui să fie activat în plugin.xml de analizare-html; permite mai multor tipurile MIME pentru plugin.xml.
- analizare-Tika fix și analiza-html de a utiliza rezoluție URL relativ pe RFC-3986.
- modernizate la Tika 0,10. NOTĂ:. Tika noul parser RTF poate ignora mai mult de text în documentele malformate decât anterior - a se vedea TIKA-748 pentru detalii
- ținte Adaugat Sonar la build.xml Ant.
- modernizate SolrJ la versiunea 3.4.0.
- țintă Ant PMD este rupt.
- modernizate Solr schemă la versiunea 1.4.
Ce este nou în versiunea 1.3:
- Această versiune include mai multe îmbunătățiri (suport îmbunătățit RSS parsarea, mai stricte Integrarea cu Apache Tika, sprijin parsarea extern, identificarea limbă îmbunătățită și un ordin de mărime mai mică sursă de presă tar -!. numai aproximativ 2MB)
Ce este nou în versiunea 1.2:.
- Asigurați-index-mai-plug-in configurabile
- configurabile protocol fișier director părinte crawling.
- timeout pentru Parser.
- Site-ul este încă Lucene marca.
- Încercați din nou interval în data crawl este setat la 0.
Ce este nou în versiunea 1.0:.
- Permiteți interpretoare pentru a reveni mai multe obiecte analiza
- Eliminat redundante borcan Commons-logare de la ontologie plugin.
- Bug în SegmentReader provoacă buclă infinită.
- filtru puncte înscrise trebuie să distribuie scor tuturor outlinks simultan.
- Reducerea serie de avertismente, în miez nuce.
Comentariile nu a fost găsit