proiect Supa Frumoasa este un interpretor Python HTML / XML proiectat pentru proiecte de raspuns rapid, cum ar fi ecran-răzuire. Trei caracteristici fac puternic:
Frumoasa Supa nu va sufoca daca dau marcare rău. Acesta produce un copac parsare care face aproximativ la fel de mult sens ca documentul original. Aceasta este, de obicei destul de bun pentru a colecta datele de care aveți nevoie și fugi.
Frumoasa Supă oferă câteva metode simple și expresii pythonic pentru navigație, căutare, și modificarea un copac Parse: un set de instrumente de disecție un document și extragerea ceea ce ai nevoie. Nu trebuie să creați un parser personalizat pentru fiecare aplicație.
Frumoasa Supă convertește în mod automat de documente primite la Unicode și a documentelor de ieșire la UTF-8. Nu trebuie să ne gândim la codificări, cu excepția cazului în documentul nu precizează un codificare și frumoase Supa nu poate detecta automat o. Apoi, trebuie doar să specificați codificarea originală.
Frumoasa Supă analizează tot ce da, și nu chestii de traversare copac pentru tine. Poti spune ca "Gaseste toate link-urile", sau "Gaseste toate link-urile de clasa externalLink", sau "Gaseste toate link-urile ale căror URL-uri se potrivesc" foo.com ", sau" Găsiți tabelul poziția că textul bold are, atunci da mă că textul. "
Date valoroase, care a fost odată închis în site-uri prost concepute, este acum la indemana ta. . Proiectele care s-ar fi luat ore dura doar câteva minute cu supa de matrimoniale
Cerințe :
- Python
Comentariile nu a fost găsit