Multe aplicații care se ocupă cu date nestructurate au nevoie de acces la conținutul text de documente formatate sau marcate-up. Organizațiile care arhiva documente necesită adesea acces la conținutul textual de a face documentele căutat și pentru a permite agregarea conținutului, raportarea și minerit a arhivelor de documente. Căutați și aplicare regăsire, de asemenea, nevoie pentru a extrage și tokenize text din diferite formate de fisiere.
Un mecanism standard de a accesa și a extrage textul din documente este asigurată de interfața plug-in IFilter folosit în motoarele de căutare Microsoft. Există câteva implementări IFilter dezvoltate de Microsoft și alți furnizori care acoperă o varietate de formate de fișiere. Standard sau fiabilitatea și text extracție calitatea variază în funcție de mai multe dezvoltatori IFilter.
Filtre Opait text este un program utilitar mic cu o interfață simplă pentru IFilters care sunt deja instalate pe computerul gazdă, precum și câteva filtre de extracție de text personalizat care lucrează direct cu formate de fișiere și de a îmbunătăți asupra implementări implicit IFilter.
. Interfața pentru a extrage textul este asigurată de o bibliotecă de clasa mica numit Opait.Filters care este inclus și poate fi utilizat pentru a integra filtre de text în aplicații .NET
Cerințe :
.NET Framework 4.5
Comentariile nu a fost găsit