Apache Tika

Screenshot Software:
Apache Tika
Detalii soft:
Versiune: 1.4
Incarca data: 20 Feb 15
Licenţă: Gratuit
Popularitate: 6

Rating: nan/5 (Total Votes: 0)

Apache Tika este o set de instrumente open source concepute pentru a detecta și a extrage metadate, precum și conținutul de text structurat din mai multe documente, folosind nimic, dar existente biblioteci parser.
Apache Tika acceptă următoarele formate de documente: HyperText Markup Language (HTTP), formate XML și derivate, formate de documente Microsoft Office, format OpenDocument (ODF), Portable Document Format (PDF), format electronic publicării (EPF), Rich Text Format (RTF ), formate de compresie și de ambalare, formate text / audio / imagine / video, formatul mbox, și fișiere de clasă Java și arhive.
Anterior, Apache Tika a fost un sub-proiect al bibliotecii software Apache Lucene. Acum este distribuit ca un pachet standalone de Apache Software Foundation

Ce este nou în această versiune:.

  • Eliminat o fișier de test HTML cu un text GPL slab ales în ea (TIKA-1129).
  • Îmbunătățiri la tika-server pentru ai permite să producă text / html si text / xml conținut (TIKA-1126, TIKA-1127).
  • îmbunătățiri au fost făcute la compresor Parser să se ocupe de fișiere g'zipped care necesită opțiunea decompressConcatenated setată la true (TIKA-1096).
  • adresat o eroare tipografic care a fost prevenirea de detectare a fișierelor awk (TIKA-1081).
  • Adaugata o nouă final punct pentru serverul Tika lui JAX-RS REST care detectează numai de tip mass-media bazat pe o mică porțiune a documentului prezentat (TIKA-1047).
  • RTF:. Liste ordonate și neordonate sunt acum extrase (TIKA-1062)
  • MP3: Durata audio este acum extras (TIKA-991)
  • fisiere Java .class:. Upgradat de la ASM 3,1 la AȘM 4.1 pentru parsarea de bytecodes Java (TIKA-1053)
  • Tipuri MIME: Definiții extins pentru a cuprinde opțional Link (URL) și UTI, impreuna cu detalii pentru mai multe formate comune (TIKA-1012 / TIKA-1083)
  • excepții când parsarea documentelor OLE10 încorporat, când parsarea informații sumare de documente Office, și când salvarea documennts încorporate în TikaCLI sunt acum logat în loc de abandonare extracție (TIKA-1074)
  • MS Word: caracter linie de tabel este acum înlocuită cu linie nouă (TIKA-1128)
  • XML: ElementMetadataHandlers poate acum accepta opțional valori duplicate și goale (TIKA-1133)
  • .

Cerințe :

  • Java 2 Standard Edition Runtime Environment

Alte software-uri de dezvoltator The Apache Software Foundation

Batik
Batik

3 Jun 15

Apache Cassandra
Apache Cassandra

19 Feb 15

Apache Pig
Apache Pig

18 Jul 15

Comentarii la Apache Tika

Comentariile nu a fost găsit
Adauga comentarii
Porniţi pe imagini!