Jericho HTML Parser

Screenshot Software:
Jericho HTML Parser
Detalii soft:
Versiune: 3.4
Incarca data: 10 Dec 15
Producător: Martin Jericho
Licenţă: Gratuit
Popularitate: 12

Rating: nan/5 (Total Votes: 0)

Se poate edita tag-uri de server-side și client-side, în timp ce de reproducere verbatim orice HTML nerecunoscut sau nevalid.

Acesta prevede, de asemenea, funcții la nivel înalt formular HTML manipulare

Caracteristici :.

  • Prezența HTML greșit formatat nu interferează cu parsarea de restul documentului, ceea ce face biblioteca ideal pentru utilizarea cu & quot; lumea reală & quot; HTML care inductoare alte interpretoare.

  • Tag-uri de server
  • ASP, JSP, PSP, PHP și Mason sunt recunoscute în mod explicit de către parser. Acest lucru înseamnă că HTML normală este încă analizat în mod corespunzător, chiar dacă există tag-uri pentru servere în interiorul ei, care este comună, de exemplu, atunci când se stabilesc în mod dinamic element de atribute.
  • O nouă opțiune flux bazat parsare folosind clasa StreamedSource, care permite prelucrarea de memorie eficientă de fișiere mari, folosind un iterator eveniment. Aceasta este, în esență, o alternativă Stax cu capacitatea de a procesa HTML și non-validarea XML, precum și mai multe alte caracteristici nu sunt disponibile în alte interpretoare de streaming.
  • În forma sa standard este nici un eveniment, nici copac parser bazat, ci mai degrabă folosește o combinație de căutare text simplu, recunoașterea eficient tag-ul și o memorie cache poziție etichetă. Textul documentului sursă întreg este primul încărcat în memorie, iar apoi numai segmentele relevante cautat caracterele relevante ale fiecărei operațiuni de căutare.
  • În comparație cu un parser bazat copac, cum ar fi DOM, cerințele de memorie și de resurse poate fi mult mai bine dacă doar mici secțiuni ale documentului trebuie să fie analizate sau modificate. HTML incorect sau prost formatate pot fi ușor ignorate, spre deosebire de copac interpretoare baza care trebuie să identifice fiecare nod în documentul de sus în jos.
  • În comparație cu un parser bazat pe evenimente, cum ar fi SAX, interfața este la un nivel mult mai mare și mai intuitiv, și o reprezentare copac al ierarhiei Element al documentului este creat cu ușurință dacă este necesar.
  • începe și poziții finale în documentul sursă a tuturor segmentelor parsate sunt accesibile, care să permită modificarea segmentelor numai selectate ale documentului fără a reconstrui întregul document dintr-un copac.
  • Numărul rând și coloană de fiecare poziție în documentul sursă sunt ușor accesibile.
  • oferă o interfață simplă, dar cuprinzătoare pentru analiza și manipularea controalelor formular HTML, inclusiv extragerea și populația a valorilor inițiale, și de conversie sau de afișare a datelor moduri de read-only. Analiza comenzilor forma, de asemenea permite ca datele primite de la formularul de a fi stocate și prezentate într-un mod adecvat.
  • Built-in funcționalitate pentru a extrage tot textul de la HTML markup, potrivit pentru alimentarea într-un motor de căutare de text, cum ar fi Apache Lucene.
  • Built-in funcționalitate pentru a face markup HTML cu formatare de text simplu.
  • Built-in funcționalitate pentru a formata codul sursă HTML care liniuțe elemente în funcție de adâncimea lor în ierarhia Element al documentului. (Click aici pentru o demonstrație on-line)
  • Built-in functionalitate la codul sursă HTML compact prin eliminarea tuturor spațiu alb inutil.
  • tipuri de tag-uri personalizate pot fi ușor de definit și înregistrat pentru recunoașterea de către parser.

Ce este nou în această versiune:.

  • Adaugat Source (File) constructor
  • Adaugat OutputDocument.getSegment () metodă.
  • Adaugat OutputDocument.remove (începe Int, scop int) metodă.
  • Adaugat Renderer.setHRLineLength () metodă.
  • Adaugat RenderToText.jsp probă webapp.
  • Adaugat Segment.getRowColumnVector () metodă.
  • detectare codare ignoră acum codificări comune specificate în meta tag-uri, care au o dimensiune unitate cod incompatibil cu codificarea preliminare.

Ce este nou în versiunea 3.1:

  • Fixat Bug:
  • buclă infinită pe Segment.getAllStartTags ()
  • buclă infinită pe Segment.getAllElements ()
  • Segment.getFirst * metode întors segmente afara segmentului de încadrare.

  • Metode
  • Segment.getAllElements nu a returnat toate elementele închise în anumite circumstanțe.
  • erori de documentare fixe în metode Segment.getAllElements.
  • class Adaugat StreamedSource.
  • Schimbările care ar putea afecta comportamentul programelor existente:
  • schimbată ParseText de la clasa de interfață.
  • Segment.getNodeIterator () returnează acum morale noduri separate.
  • tag Adaugata metode de căutare bazate pe expresii regulate valoare atribut.
  • tag Adaugata metode de căutare bazate pe atribute de clasa HTML.
  • Adaugata proprietate Source.LegacyNodeIteratorCompatabilityMode static temporar pentru a restabili Segment.getNodeIterator () funcționalitate cu cea a versiunilor anterioare.
  • char scos [] bazate pe metode de căutare în ParseText.
  • Adaugat CharacterReference.appendCharTo (Appendable) metoda.
  • Adaugat OutputDocument (Segment) constructor.
  • program de probă Adaugat StreamedSourceCopy.

Software similare

Alte software-uri de dezvoltator Martin Jericho

Comentarii la Jericho HTML Parser

Comentariile nu a fost găsit
Adauga comentarii
Porniţi pe imagini!
Cauta dupa categorie