proiect cpdetector este un cadru dar inteligent mic pentru detectarea pagină de coduri.
cpdetector este un cadru mic dar inteligent pentru detectarea pagină de coduri care integrează strategii diferite. Acesta poate fi folosit ca o bibliotecă pentru software-ul terț care accesează datele text pe rețea.
Aceasta include, de asemenea, o punere în aplicare cele mai bune practici în formă de un instrument de linie de comandă care permite sortarea și transformarea colecții mari de documente, pe baza pagină de cod lor.
Strategiile disponibile includ: jchardet (excludere, analiza de frecvență, și ghicitul), detectare de proprietate HTML charset, iar detectarea declarația de codificare XML.
Ce este o pagină de cod?
La început, un document textual nu este nimic mai mult decât secvențe de biți. Un computer trebuie să decidă, cum el poate afișa aceste date sub forma de caractere (care sunt identificate de către computer ca numere).
O pagină de cod - care este, de asemenea, cunoscut sub numele de codare charset - harti datele brute unui document textual de caractere. Inițial pagina de cod ASCII de exemplu folosește doar 7 biți de un octet (byte) pentru a decide caracterul care este reprezentat astfel permițând doar la harta 128 de caractere diferite. În memoria dribleze a fost scump și calculatoare cele mai multe ori a avut doar registre și autobuze pentru 8 biți.
Când un mainframe a fost conceput trebuia să fie decis, pe care personajele ar trebui să sprijine. Medicii si matematicieni de exemplu necesare caractere speciale pentru ecuații. Ca urmare, un calculator de multe ori livrat cu o pagină de coduri special
Ce este nou în această versiune:.
- Acest bugfix mare Versiunea rezolvă două probleme în modul linie de comandă lot.
- Trecerea să săriți peste care se deplasează în documentele nedetectate functioneaza acum din nou.
- Nu incercare se va face la codifica documentele nedepistate (acesta din urmă a provocat flux de program excepțional).
Ce este nou în versiunea 1.0.8:
- Această versiune este o eliberare de stabilitate și stabilește octetul obligarea detectare marca și incompatibilitate cu OpenJDK. Se impune, de asemenea Java 1.5 acum.
Comentariile nu a fost găsit