Jericho HTML Parser

Screenshot Software:
Jericho HTML Parser
Detalii soft:
Versiune: 3.3
Incarca data: 20 Feb 15
Producător: Martin Jericho
Licenţă: Gratuit
Popularitate: 56

Rating: nan/5 (Total Votes: 0)

Jericho HTML Parser este un open source, simplu, dar bibliotecă puternic scris în întregime în Java.
Aceasta permite programatorilor să manipuleze și să analizeze părți ale unui document HTML.
Jericho HTML Parser include, de asemenea funcții la nivel înalt formular HTML manipulare

Ce este nou în această versiune:.

  • fix Bug-uri:
  • [3581664] CharacterReference.decode () nu decodeze entități care conțin cifre - & frac12; & Frac14; & Frac34; & Sup1; & Sup2; & Sup3; & There4;
  • [3311286] SourceCompactor nu respectă TEXTAREA
  • [3519131] ieșire de redare incorect atunci când sunt construite cu un obiect Element.
  • [3538829] ieșire de redare de decorare font pe limitele bloc incorecte.
  • Segment.getAllStartTags (numele) și Segment.getFirstElement (numele) nu funcționează dacă argumentul conține caractere majuscule.
  • capăt delimitatorul de o etichetă comună server de reușită o etichetă de server evadat este fals recunoscut ca scop delimitatorul a etichetei scăpat.
  • schimbări care ar putea afecta COMPORTAREA programelor existente:
  • [3427073] Segment.getStyleURISegments () include în prezent conținut element de stil, precum și valori de atribute stil.
  • [3427927] Segment.getURIAttributes () include acum atributele de arhivă ale elementelor de obiecte și applet.
  • Comentarii nu mai recunoscute reușită elemente de script-uri în timpul parse secvențială complet. Anterior au fost recunoscute pentru compatibilitate cu browserele importante, dar comportamentul modernă browser-ul sa schimbat.
  • schimbată nivelul jurnal al tuturor erorilor parsare de la INFO la eroare, iar nivelul jurnal de Source.fullSequentialParse () mesajul de consultare de la WARN la INFO. Nivelurile anterioare au dat mesajul consultativ o severitate mai mare decât erorile de parsare, prevenind sisteme de logare de la ascunde mesajul consultativ în timp ce arată erori de parsare. Atenționări codificare caracter rămână nemodificate la nivelurile WARN nivel.
  • schimbat comportamentul metodei Renderer.renderHyperlinkURL (StartTag), astfel încât adresele URL relative nu sunt prestate.
  • schimbat comportamentul de redare, astfel încât conținutul elementului hyperlink nu este interpretat dacă acesta este la fel ca adresa URL hyperlink, ignorând orice http:. // Prefix sau / sufix
  • EndTag.tidy () elimină în prezent spațiu până la paranteza de închidere.
  • Adăugat Source (File) constructor.
  • Adăugat OutputDocument.getSegment () metodă.
  • Adăugat OutputDocument.remove (începe int, int final) metoda.
  • Adăugat Renderer.setHRLineLength () metodă.
  • Adăugat RenderToText.jsp probă webapp.
  • Adăugat Segment.getRowColumnVector () metodă.
  • detectare de codare ignoră acum codificări comune prevăzute în meta tag-uri, care au o dimensiune unitate cod incompatibil cu codificarea preliminar.
  • modernizate pentru următoarele API-uri logger: slf4j-api-1.7.2, Log4j-1.2.17

Ce este nou în versiunea 3.1:

  • fix Bug-uri:
  • [2793556] buclă infinită pe Segment.getAllStartTags ()
  • buclă infinită pe Segment.getAllElements ()
  • Segment.getFirst * Metode de întors segmente în afara segmentului de încadrare.

  • Metodele
  • Segment.getAllElements nu a returnat toate elementele închise în anumite circumstanțe.
  • erori de documentare fixe în metodele de Segment.getAllElements.
  • clasă Adaugat StreamedSource.
  • schimbări care ar putea afecta COMPORTAREA programelor existente:
  • schimbată ParseText de la clasa de interfață.
  • Segment.getNodeIterator () returnează acum morale noduri separate.
  • tag Adaugata metode de căutare bazate pe expresii regulate valoare atribut.
  • tag Adaugata metode de căutare bazate pe atribut de clasa HTML.
  • Adaugata proprietate Source.LegacyNodeIteratorCompatabilityMode static temporar pentru a restabili Segment.getNodeIterator () funcționalitate cu cea a versiunilor anterioare.
  • char îndepărtat [] bazate pe metode de căutare în ParseText.
  • Adăugat CharacterReference.appendCharTo (Appendable) metodă.
  • Adăugat OutputDocument (Segment) constructor.
  • program de probă Adaugat StreamedSourceCopy.

Ce este nou în versiunea 3.0:

  • fix Bug-uri:
  • referințele Caracter reprezentând caractere suplimentare Unicode nu au fost decodificate corect la perechi unitate UTF-16 cod.
  • [2188446] Element.getDepth () și Element.getParentElement (), a dat rezultate incorecte dacă chemat la analizare la modul cerere.
  • Comentariile sunt acum recunoscute în interiorul & lt; script & gt; Elemente.

  • MODIFICĂRI
  • API CARE NU sunt compatibile:
  • numele pachetului schimbată la net.htmlparser.jericho
  • Valorile atribut trebuie să fie acum de coarde, mai degrabă decât CharSequence.
  • înlăturate toate metodele depreciate / clase din versiunile anterioare.
  • Toate găsi metode * depreciate în favoarea obține * metode pentru a aplica o convenție de denumire consecvent în toate metodele de căutare tag.

  • Clase
  • Tag, Element și HTMLElements nu mai pune în aplicare interfata HTMLElementName. (Utilizați import static loc)
  • Toate colecțiile acum stongly tastat, folosind medicamente generice.
  • schimbată clasa FormControlOutputStyle la enumerare.
  • schimbată clasa FormControlType la enumerare.
  • Adăugat CharStreamSource.appendTo (Appendable) metodă.
  • Adăugat Source.iterator () metodă.
  • Sursa implementează acum Iterable.
  • juca intern StringBuilder pentru o performanță mai bună.
  • Adăugat Source.getNextStartTag (StartTagType) metodă.
  • Adăugat Source.getNextEndTag (EndTagType) metodă.
  • Adăugat Source.getPreviousStartTag (StartTagType) metodă.
  • Adăugat Source.getPreviousEndTag (EndTagType) metodă.
  • Adăugat Segment.getAllStartTags (StartTagType) metodă.
  • Adaugata toate Segment.getFirst * metode.
  • Adăugat Renderer.renderHyperlinkURL (StartTag) metodă.
  • program de probă Adaugat HTMLSanitiser.
  • modernizate la slf4j-api-1.5.6

Cerințe :

  • Java 2 Standard Edition Runtime Environment

Software similare

html2text
html2text

3 Jun 15

Docvert
Docvert

11 May 15

Grutatxt
Grutatxt

12 May 15

uni2ascii
uni2ascii

11 May 15

Alte software-uri de dezvoltator Martin Jericho

Comentarii la Jericho HTML Parser

Comentariile nu a fost găsit
Adauga comentarii
Porniţi pe imagini!