lxml

Screenshot Software:
lxml
Detalii soft:
Versiune: 3.4.4 Actualizat
Incarca data: 12 May 15
Producător: infrae.com
Licenţă: Gratuit
Popularitate: 245

Rating: 5.0/5 (Total Votes: 1)

LXML combină viteza acestor biblioteci cu simplitatea limbajului Python.
Compatibil cu toate versiunile CPython 2.4-3.2

Ce este nou în această versiune:.

  • lxml.html.iterlinks acum întoarce linkuri interiorul tag meta refresh.
  • New XMLParser collect_ids opțiune = False pentru a dezactiva crearea tabel hash ID. Aceasta poate accelera substantial pana parsarea documentelor cu multe ID-uri diferite, care nu sunt utilizate.
  • parser foloseste tabele pe document hash pentru ID-uri XML. Aceasta reduce sarcina de dict parser global și accelerează parsarea documentelor cu mai multe ID-uri diferite.
  • ElementTree.getelementpath (elementului) returnează o expresie ElementPath structural pentru elementul dat, care poate fi utilizată pentru căutările târziu.
  • xmlfile () acceptă un argument nou aproape = True pentru a închide fișierul (-cum ar fi) obiecte după ce a scris pentru a le. Înainte, xmlfile () închis doar fișierul dacă ar fi deschis în interior.
  • Permiteți & quot; bytearray & quot; tip pentru introducerea textului ASCII.

Ce este nou în versiunea 3.4.2:

  • lxml.html.iterlinks revine acum link-uri în interiorul meta refresh tag-uri.
  • New XMLParser collect_ids opțiune = False pentru a dezactiva crearea tabel hash ID. Aceasta poate accelera substantial pana parsarea documentelor cu multe ID-uri diferite, care nu sunt utilizate.
  • parser foloseste tabele pe document hash pentru ID-uri XML. Aceasta reduce sarcina de dict parser global și accelerează parsarea documentelor cu mai multe ID-uri diferite.
  • ElementTree.getelementpath (elementului) returnează o expresie ElementPath structural pentru elementul dat, care poate fi utilizată pentru căutările târziu.
  • xmlfile () acceptă un argument nou aproape = True pentru a închide fișierul (-cum ar fi) obiecte după ce a scris pentru a le. Înainte, xmlfile () închis doar fișierul dacă ar fi deschis în interior.
  • Permiteți & quot; bytearray & quot; tip pentru introducerea textului ASCII.

Ce este nou în versiunea 3.3.2:

  • proprietăți rezolvere și versiunea, precum Metode set_element_class_lookup () și makeelement (), s-au pierdut de la obiecte iterparse.
  • Cazurile de XMLSCHEMA, Schematron și RelaxNG nu clar error_log locale înainte de a o validare.
  • lxml.doctestcompare amestecat quot up, de așteptat & quot; și & quot; reală & quot; în valorile atributelor.

Ce este nou în versiunea 3.3.1:

  • Bugs fix:
  • documentele HTML parsate cu parser.feed () nu a reușit să găsească elemente în timpul tag repetare.
  • Construirea în PyPy eșuat din cauza lipsei de sprijin pentru PyUnicode_Compare () și PyByteArray _ * () în C-API PyPy lui.
  • Compilation în MSVC eșuat din cauza lipsei & quot; stdint.h & quot; fișier antet standard de.
  • iterparse () nu a reușit să elimine BOM prefixat fișiere.

Ce este nou în versiunea 3.3.0:

  • Bugs fix:
  • euristic care distinge căi de fișiere de adrese URL a fost înăsprit pentru a produce mai puțin negative false.

Ce este nou în versiunea 3.2.3:

  • suport fix pentru Python 2.4, care a fost pierdut în 3.2 .2.

Ce este nou în versiunea 3.2.1:

  • Metodele apply_templates () și process_children () din Elemente de extensie XSLT au câștigat două opțiuni booleene noi elements_only și remove_blank_text că se aruncă fie toate siruri de caractere sau spații albe numai cu siruri de caractere din lista de rezultate.

Ce este nou în versiunea 3.2.0:

  • Leading spațiu ar putea schimba comportamentul parsarea șir funcționează în lxml.html.
  • șir analiză funcționează în lxml.html sunt mai robuste în fața conținutului neobișnuit HTML ca de cadre sau lipsesc etichete corporale.
  • I / O erori în timp ce încerca să acceseze fișierele cu poteci care conțin caractere non-ASCII ar putea ridica UnicodeDecodeError loc în mod corespunzător de raportare IOError.
  • Analizarea din fire din memorie acces la rețea dezactivate în mod implicit parser și a făcut încercări ulterioare de a analiza dintr-o adresă URL nu.

Ce este nou în versiunea 3.1.2:

  • Adoptarea atribute prin API-namespace cunostinta de punte sax (adică handler.startElement () metoda) nu cu o TypeError.
  • eroare de serie fixă ​​în producția XSLT când conversia arborele rezultat un sir Unicode.

Ce este nou în versiunea 3.0.2:

  • crash fix în timpul opririi interpret prin trecerea la Cython 0,17 .3 pentru construirea.

Ce este nou în versiunea 3.0:

  • C14N permite specificarea prefixele inclusive care urmează să fie promovat la sus în nivel în timpul serializare exclusive.
  • Suportul initial pentru construirea in PyPy (prin cpyext).
  • obiecte DTD câștigat un API care permite accesul de citire la declarațiile lor.
  • xpathgrep.py câștigat sprijin pentru linie cu linie (de exemplu, de la ieșire grep) parsare și pentru jurul ieșire cu o nouă etichetă rădăcină.
  • E-fabrică în lxml.builder acceptă subtipuri de tipuri de date cunoscute (cum ar fi subtipuri coarde) atunci când construirea elemente din jurul lor.
  • repetare Arbore și iterparse (), cu un argument selectiv etichetă acceptă trecerea unui set de tag-uri. Noduri de copaci vor fi returnate de iteratori dacă se potrivesc pe oricare cuvant.

Ce este nou în versiunea 2.3.5:

  • Crash când fuzionează noduri text în element.remove ( ).
  • Crash in parser saxofon / target la raportarea doctype gol.

Ce este nou în versiunea 2.3.4:

  • Crash atunci când construirea unui nsmap (Element de proprietate), cu URI-urile namespace gol.
  • Crash cauza stării de rasă atunci când apar erori (sau mesaje de utilizator) în timpul prelucrării XSLT filet.
  • XSLT stylesheet compilare ar putea ignora erori de compilare.

Ce este nou în versiunea 2.3.3:

  • Caracteristici adăugat:
  • lxml.html.tostring () a câștigat noi optiuni de serializare with_tail și DOCTYPE.
  • Bugs fix:
  • Fixed-un accident la utilizarea iterparse () pentru HTML parsarea și solicitarea de evenimente de pornire.
  • parsarea fixă ​​de mai multe selectoare în cssselect. Spațiu înainte pseudo-elemente și pseudo-clase este important ca acesta este un combinator descendent. & Quot; E: pseudo & quot; ar trebui analiza la fel ca & quot; E *: & quot ;, pseudo nu & quot; E:. pseudo & quot;
  • lxml.html.diff nu mai ridică o excepție când lovirea etichetele "img" fără atributul "src".

Ce este nou în versiunea 2.3.2:

  • Caracteristici adăugat:
  • lxml.objectify.deannotate () are un nou cleanup_namespaces opțiune boolean pentru a elimina declarațiile namespace obiectiva (și în general curata declarațiilor namespace) după îndepărtarea adnotările de tip.
  • lxml.objectify câștigat funcția proprie subelement (), ca o copie a etree.SubElement, pentru a evita un import altfel redundant de lxml.etree pe partea de utilizator.
  • Bugs fix:
  • fix & quot; & quot; descendent bug cssselect a doua oară (după o primă fix în LXML 2.3.1). Schimbarea anterior a dus la un regres serios de performanță pentru evaluarea XPath bazat expresiei tradus. Rețineți că această rupe utilizarea unor expresii XPath generate fi căi de localizare XSLT care au lucrat anterior în 2.3.1.
  • parsarea fixă ​​a unor selectori în cssselect. Spațiu după combinatoare & quot; & # x3e; & quot ;, & quot; + & quot; și & quot; ~ & quot; este acum ignorat în mod corect. Anterior este fost analizat ca un combinator descendent. De exemplu, & quot; div & # x3e; .foo & quot; a fost analizat la fel ca & quot; div & # x3e, * .foo & quot; în loc de & quot; div & # x3e, .foo & quot;.

Ce este nou în versiunea 2.3.1:

  • Caracteristici adăugat:
  • opțiunea New kill_tags în lxml.html.clean pentru a elimina etichetele specifice și conținutul lor (de exemplu, întreaga subarbore lor).
  • pi.get () și pi.attrib cu instrucțiunile de procesare pentru a analiza pseudo-atribute de conținutul text de instrucțiuni de procesare.
  • lxml.get_include () returnează o listă a cuprinde căi care pot fi folosite pentru a compila codul C extern împotriva lxml.etree. Acest lucru este necesar în mod special pentru LXML static legat construiește atunci când codul trebuie să compileze împotriva exact aceleași versiuni de fișiere antet ca LXML sine.
  • Resolver.resolve_file () are un close_file opțiune suplimentară care configurează dacă fișierul (-ca) obiectul vor fi închise după ce a citit sau nu. În mod implicit, fișierul va fi închis, deoarece utilizatorul nu este de așteptat să mențină o trimitere la acesta.
  • Bugs fix:
  • curățare HTML nu elimina "date:". Link-uri
  • Integrarea html5lib parser folosește acum în aplicare "oficial" în html5lib sine, ceea ce face de lucru cu versiuni mai noi ale bibliotecii.
  • În lxml.sax, endElementNS () ar putea respinge incorect un nume de etichetă simplu, atunci când evenimentul de start corespunzătoare dedus același nume tag simplu să fie în spațiul de nume implicit.
  • Când un obiect fișier ca deschis este trecut în parse () sau iterparse (), parser nu va mai aproape de ea după utilizare. Aceasta revine o schimbare în LXML 2.3 unde toate fișierele vor fi închise. Este responsabilitatea utilizatorilor să închidă corect fișierul (-cum ar fi) obiect, de asemenea, în cazurile de eroare.
  • eroare afirmare în lxml.html.cleaner la eliminarea elementelor de nivel superior.
  • În lxml.cssselect, utilizați XPath "A // B" (prescurtarea de la "A / nod descendent-sau auto :: () / B") în loc de "A / descendent :: B" pentru css selector descendent ("A B '). Acest lucru face câteva cazuri de margine să fie în concordanță cu comportamentul selector în WebKit și Firefox, și face mai multe expresii css căi locație valabile (pentru utilizare în xsl: template meci).
  • În lxml.html, non-selectat și # x3c, opțiune și # x3e; tag-uri nu mai apar în valorile forma colectate.
  • Adăugarea / eliminarea & # x3c, opțiune și # x3e; Valorile la / de la un multiplu select câmp de formular le selectează și le deselecteaza corect.
  • Alte modificări:
  • Static construiește poate specifica directorul de descărcare cu opțiunea---download dir.

Ce este nou în versiunea 2.3:

  • Caracteristici adăugat:
  • Atunci când caută pentru copii, lxml.objectify ia "{} etichetă" în sensul de spațiu de nume gol, spre deosebire de spațiul de nume părinte.
  • Bugs fix:
  • Când terminat de citit de la un obiect fișier ca, parser solicită imediat .close () metoda sa.
  • Când ați terminat de parsare, iterparse () închide imediat fișierul de intrare.
  • Work-în jurul valorii de bug libxml2 care pot lăsa analizorul HTML într-o stare nefuncțională după parsarea un document rupt sever (stabilită în libxml2 punctul 2.7.8).
  • tag Marque in HTML de cod cleanup este numit corect cort.
  • Alte modificări:
  • Unele funcții publice din Cython nivel C-API au tipuri de returnare mai explicite.

Ce este nou în versiunea 2.3beta1:

  • Bugs fix:
  • Crash în versiunile mai noi libxml2 atunci când se deplasează elemente între documente care au avut atributele pe noduri XInclude înlocuit.
  • Funcția XMLID () lipsea opționale parser și base_url parametrii.
  • Căutarea etichetele wildcard în iterparse () a fost rupt în AP3.
  • lxml.html.open_in_browser () nu au de lucru în Python 3 ca urmare a utilizării de os.tempnam. Este nevoie de acum un parametru opțional "codare".

Software similare

PyYAML
PyYAML

13 May 15

Shapely
Shapely

4 Jun 15

jsonpickle
jsonpickle

12 Apr 15

Comentarii la lxml

Comentariile nu a fost găsit
Adauga comentarii
Porniţi pe imagini!