Apache Tika

Screenshot Software:
Apache Tika
Detalii soft:
Versiune: 1.9 Actualizat
Incarca data: 20 Jul 15
Licenţă: Gratuit
Popularitate: 89

Rating: 5.0/5 (Total Votes: 1)

Apache Tika a fost dezvoltat ca un set de instrumente de nivel scăzut pentru căutarea de conținut din interiorul alte fișiere.
Tika nu face mult pe cont propriu fiind o bibliotecă simplu, dar poate fi integrat în instrumente mai puternice, cum ar fi motoarele de cautare, sisteme digitale de gestionare a activelor sau CMS pentru a oferi un sistem complet funcțional de căutare în fișier.
Biblioteca poate accesa în afara doar fișierul de informații rapid fișiere în general, sau poate merge într-adevăr profund și de căutare, chiar și în corpul fișierului pentru diferite tipuri de date, în format text sau binar.
O gamă largă de tipuri de fișiere sunt acceptate și Tika poate fi de asemenea folosit cu alte limbaje de programare, datorită unei serii de legături terți și ambalaje.

Ce este nou în această versiune :

  • Această versiune include bug fixat și noi caracteristici, inclusiv un nou Tesseract OCR Parser; un nou Parser GDAL; mai susținut formate, și îmbunătățiri generale în stabilitatea Tika.

Ce este nou în versiunea 1.8:

  • Această versiune include bug fixat și noi caracteristici, inclusiv un nou Tesseract OCR Parser; un nou Parser GDAL; mai susținut formate, și îmbunătățiri generale în stabilitatea Tika.

Ce este nou în versiunea 1.7:

  • Această versiune include bug fixat și noi caracteristici, inclusiv un nou Tesseract OCR Parser; un nou Parser GDAL; mai susținut formate, și îmbunătățiri generale în stabilitatea Tika.

Ce este nou în versiunea 1.6:

  • Această versiune include bug fixat și noi caracteristici, inclusiv o nouă traducere API, formate mai suportate, și îmbunătățiri generale în stabilitatea Tika.

Ce este nou în versiunea 1.5:.

  • Fixed bug în manipularea de prelucrare fișier încorporat în PDF-uri
  • Adăugat SourceCodeParser pentru suport Java, Groovy, C ++ fișiere.
  • Actualizat Tika Server pentru a sprijini sarcinile utile, multipart / form-data.
  • Actualizat Tika Server la CXF punctul 2.7.8.
  • Actualizat Tika Server să accepte cereri de peste adrese wildcard.
  • opțiune Adăugat de a utiliza NonSequentialPDFParser alternativă.
  • Conținut de AcroForms PDF este acum extras.
  • asteriscuri invalide fixe de maestru diapozitiv în PPT.
  • cazuri de testare Adăugat pentru a confirma manipularea auto-data în PPT și PPTX.

Ce este nou în versiunea 1.4:

  • Eliminat un fișier de test HTML cu un text GPL slab ales în l.
  • Îmbunătățiri la Tika-server pentru a permite pentru a produce text / html si text / conținut XML.
  • Îmbunătățiri au fost făcute la compresor Parser să se ocupe de fișiere g'zipped care necesită opțiunea decompressConcatenated setat la true.
  • adresat o eroare tipografic care a fost împiedică detectarea fișierelor awk.

Ce este nou în versiunea 1.2:

  • Apache Tika 1.2 conține o serie de îmbunătățiri și bug fixat.

Ce este nou în versiunea 1.0:

  • Apache Tika 1.0 conține o serie de îmbunătățiri și bug fixat.

Ce este nou în versiunea 0.9:.

  • Această versiune include mai multe bug fixat importante și caracteristici noi

Ce este nou în versiunea 0.8:

  • identificarea Limba este acum dinamic configurabil, a reușit prin intermediul unui fișier de configurare încărcat de classpath.
  • Tika suportă acum parsare Fluxuri de ambalaj care stau la baza biblioteca Roma.
  • A ghid de pornire rapidă pentru Tika parsare a fost contribuit.

  • S-a adăugat
  • O abordare pentru instalatii sanitare prin atribute XHTML.
  • Tipul media informații ierarhie este acum luată în considerare la selectarea celor mai bune parser de un document de intrare dat.
  • Suport pentru parsarea formate comune de date științifice, inclusiv NetCDF și HDF4 / 5 a fost adăugată.
  • teste unitare pentru Windows au fost stabilite, permițând TestParsers pentru a finaliza.

Ce este nou în versiunea 0.7:

  • fișier MP3 de parsare a fost îmbunătățită, inclusiv extracția canal și SampleRate și sprijin ID3v2. Mai mult, de detectare audio mim parsare a fost, de asemenea, îmbunătățită pentru formatul MIDI.
  • Tika nu mai se bazează pe X11 pentru funcționalitate RTF parsare.
  • Un bug-thread-safe în AutoDetectParser a fost descoperit și a adresat.
  • Upgrade PDFBox 1.0.0. Noua versiune PDFBox îmbunătățește performanța parsing PDF și stabilește o serie de probleme de extracție text.

Cerințe :

  • Java 6 sau mai mare

Software similare

Runt
Runt

13 May 15

SproutCore
SproutCore

28 Feb 15

scroll.js
scroll.js

6 Jun 15

Alte software-uri de dezvoltator Apache Software Foundation

Apache CloudStack
Apache CloudStack

10 Feb 16

Apache Rave
Apache Rave

13 Apr 15

Apache Maven
Apache Maven

10 Feb 16

Apache Accumulo
Apache Accumulo

4 Jun 15

Comentarii la Apache Tika

Comentariile nu a fost găsit
Adauga comentarii
Porniţi pe imagini!
Cauta dupa categorie