Detalii soft:
Versiune: 0.83
Incarca data: 1 Mar 15
Licenţă: Gratuit
Popularitate: 80
Poate fi utilizat în scris crawler cautare (paianjeni) că paginile web mei pentru diverse informații.
PHPCrawl achiziționează informații a fost configurat pentru a aduce și trece-l la aplicații mai puternice pentru prelucrare ulterioară
Caracteristici :.
- Filtre pentru date URL și Content-Type
- Definiți metode de a gestiona cookie-urile
- Definiți metode de a gestiona fișierele robots.txt
- Limiteaza activitatea în diverse moduri
- -procesare Multi
Moduri
Ce este nou în această versiune:
- bug-uri fixe:
- Site-uri care sunt parțial urlencoded și parțial nu se reconstrui / codificat corect acum.
- Eliminat o var_dump depanare inutile () de la PHPCrawlerRobotsTxtParser.class.php
- Server-nume-indicator în TLS / SSL funcționează corect acum.
- & quot; de bază href & quot;. -tags În site-uri se interpretate corect acum din nou
Ce este nou în versiunea 0.80 beta:
- Cod fost complet refactored, portat la PHP5-OO- cod și o mulțime de cod a fost rescris.
- Adaugata capacitatea de a utiliza folosi mai multe procese la păianjen un site web. Metoda & quot; goMultiProcessed () & quot; adăugat.
- Noua metoda supracomandabile & quot; initChildProcess () & quot; adăugat pentru inițierea proceselor-copil atunci când se utilizează crawler în multi-proces-mode.
- Implementet o alternativă, SQLite intern caching-mecanism pentru URL-uri care să permită să păianjen site-uri foarte mari.
- Metoda & quot; setUrlCacheType () & quot; adăugat.
- New setWorkingDirectory metoda () adăugată pentru definirea temporară director de lucru manual locația crawlerele. Pentru acestea metodă & quot; setTmpFile () & quot; este marcată ca depreciată (nu are nici o funcție mai).
- metodă nou & quot; addContentTypeReceiveRule () & quot; inlocuieste vechea metoda & quot; addReceiveContentType () & quot;.
- Funcția & quot; addReceiveContentType () & quot; încă este prezent, dar a fost marcat ca depasit.
Cerințe :
- PHP 5 sau mai mare
- PHP cu suport OpenSSL
Comentariile nu a fost găsit