ASPseek este un motor de cautare pe Internet software dezvoltat de SWsoft si licentiat ca software-ul liber în GNU GPL.
ASPseek constă dintr-un robot de indexare, un demon de căutare și o interfață de căutare CGI. Se poate indexa cat mai multe câteva milioane de URL-uri si cauta cuvinte și fraze, utilizarea metacaractere, și de a face o căutare booleană. Rezultatele căutării pot fi limitate la perioada de timp dat, site-ul sau spațiu (set de site-uri) și clasificate în funcție de relevanță (PageRank este folosit) sau data.
ASPseek este optimizat pentru mai multe site-uri (index filetate, căutări DNS asincron, gruparea rezultate de site-ul, spații web), dar poate fi folosit pentru căutarea un singur site, de asemenea. ASPseek poate lucra cu mai multe limbi / codificari simultan (inclusiv codificări multioctet, cum ar fi chineza), din cauza modul de stocare Unicode. Alte caracteristici includ stopwords și suport ispell, un set de caractere și limba ghicitor, template-uri HTML pentru rezultatele de căutare, extrase, și cuvinte de interogare subliniind.
ASPseek este scris în C ++ folosind biblioteca STL, si foloseste amestec de baze de date SQL și fișierele binare pentru depozitare.
Iată câteva caracteristici cheie ale "ASPseek":
Abilitatea de a indexa și căutare prin mai multe milioane de documente
· Folosind ASPseek, puteți construi o bază de date și căuta prin multe site-uri, precum și rezultatele pentru fiecare interogare vor fi returnate rapid, chiar dacă aveți câteva milioane de documente indexate. Desigur, acest lucru depinde de hardware, deci nu va asteptati "vechi bun" mașină i486 să se ocupe de fiecare site in domeniu .com. Totul depinde de CPU (e), de memorie, viteza de disc etc. Deci nu propriile teste înainte de a cumpăra hardware dedicat.
· Faptul că ASPseek este optimizat pentru volume mari nu ar trebui să te oprească de la utilizarea acestuia pentru a căuta site-ul dvs., care conține câteva sute de documente - functioneaza acolo, de asemenea.
Foarte bine relevanța rezultatelor
· Scopul motorului de căutare este de a găsi ceea ce utilizatorul dorește. Nu poate fi de mii de adrese URL găsite ca urmare a interogare de căutare, dar poate fi totul irelevant, astfel încât utilizatorul va fi nemulțumit.
· Rezultatele ieșire din ASPseek sunt clasificate în funcție de relevanță (sau de rang), dar de calcul rang nu este o sarcină ușoară. Dezvoltatorii au încercat tot posibilul pentru a încorpora tehnici mai și ultimele în motor ASPseek menținând în același timp bun viteza de căutare.
Suport ispell
· Când ASPseek este utilizat cu suport ispell, searchd (1) puteți găsi în mod opțional toate formele de toate cuvintele specificate (de exemplu: crearea -> Creare create sau creează). Deci, vă permite să găsiți cuvântul în toate diferite forme.
Modul de stocare Unicode
· ASPseek poate stoca informații despre documente în Unicode, făcând astfel posibil să se implementeze un motor de căutare multi-language. Deci, aveți posibilitatea să indice și să caute documentele în limba engleză, rusă și chiar chineză, toate într-o singură bază de date.
HTTP, HTTPS, HTTP protocoale proxy, FTP (prin proxy)
· Ca ASPseek este un motor de căutare web, se folosește protocolul HTTP la site-uri index. ASPseek sprijină, de asemenea https sigure: // protocol. Protocol FTP nu este acceptat în mod direct, dar puteți folosi proxy (cum ar fi calmar) și site-uri index FTP prin proxy.
· ASPseek sprijină "autorizație de bază" caracteristică a HTTP, astfel încât să puteți zone protejate cu parolă index (de exemplu, informații private în intranet).
Text / html si text / plain suport tipuri de documente
· ASPseek poate înțelege documentele scrise în HTML, și documente de tip text simplu. Acestea sunt cele mai populare formate din Internet.
· Alte formate, cum ar fi PDF, RTF, etc, pot fi sprijinite cu ajutorul oricărui program / script extern, care este capabil de a converti că formatele HTML sau text simplu.
Design multithreaded, asincron DNS resolver etc
· ASPseek foloseste fire POSIX, ceea ce înseamnă că un singur proces au multe fire care rulează în paralel. Deci descărcări index documente de la mai multe site-uri, și procese de căutare daemon multe interogări de căutare simultan. Acest lucru nu numai că ajută ASPseek la scară bine pe sisteme SMP (multiprocesor), dar îmbunătățește, de asemenea, viteza de indexare, pentru că în caz de un fir de cel mai mult timp vor fi cheltuite pentru de așteptare pentru datele de la rețea.
· Un lucru pe care procesul de indexare lent în jos o mulțime este căutare DNS (un proces de determinare a adresei IP utilizând numele serverului). Pentru a evita întârzierile, sunt puse în aplicare căutări asincrone (de căutare se face prin procese specifice separate) și adresa IP cache.
Stopwords
· Stopwords Sunt cuvinte care nu au nici un sens de la sine. Exemple: este, sunt, la acest. Căutarea de la este inutil, așa astfel de cuvinte sunt excluse de la interogare de căutare. Stopwords sunt, de asemenea, excluse de la baza de date în timpul indexare, astfel de baze de date devine mai mică și mai rapid.
· Nu există stopwords "built-in" în ASPseek, ele sunt încărcate la pornire de fișiere. Multe fișiere stopword pentru diferite limbi vine cu ASPseek.
Charset guesse
· Unele servere rupte sau greșelilor nu spun clienții setul de caractere în care furnizează conținut. Dacă sunt indexarea astfel de servere, sau folosind ASPseek serverelor index ftp (protocol FTP știe nimic despre seturi de caractere), setul de caractere ghicitor poate fi folosit pentru a face cu ea. Charset ghicitor utilizează tabele de frecvență de cuvinte (numite langmaps) pentru a stabili setul de caractere corect.
Standard de excludere Robot (robots.txt) suport
· ASPseek sprijină pe deplin acest standard. Acesta este destinat pentru autori site-ul web pentru a spune robotul (de exemplu, indicele ASPseek lui (1)) pentru a sări peste indexarea unele directoare de site-urile lor.
· Pentru mai multe informații, consultați http://www.robotstxt.org/wc/robots.html
Setări pentru a controla utilizarea lățimii de bandă de rețea și servere Web sarcină
· Puteți controla cu precizie de lățime de bandă de rețea care index (1) utilizează. Exact, puteți limita de lățime de bandă (exprimată în bytes pe secundă) utilizat de index (1) pentru dat timp de zi. De exemplu, puteți limita de lățime de bandă în timpul orelor de astfel de persoane de la biroul dvs. nu vor avea Internet lentă.
· Puteți seta, de asemenea, timpul minim între două întrebări la același server Web, astfel că nu va fi supraîncărcată și ajuns până la genunchi în timp ce alerga index (1).
Real-time indexare asincron
· Unele motoare de căutare necesită căutare ar trebui să fie oprit în momentul actualizării bazei de date. ASPseek nu are nevoie de ea, astfel încât să puteți căuta non-stop.
· Mai mult de spus, există un mod special de indexare numit indexare "în timp real". Îl puteți utiliza pentru un număr mic de documente, și în măsura în astfel de document este descărcat și procesat, modificările sunt imediat vizibile în interfața de căutare. Această caracteristică este de mare ajutor dacă sunteți construirea motor de căutare pentru paginile cu schimbare rapidă de conținut, cum ar fi știri on-line, etc.
· Rețineți că numărul de documente in "timp real" a bazei de date este limitat. Este vorba despre 1000 pe hardware-ul nostru (kilometraj dvs. poate varia), precum și mai multe documente care le au în baza de date "în timp real", mai lent va fi viteza de indexare în care (și doar asta) baza de date. Acest lucru nu va afecta viteza de căutare, deși.
· Documente din baza de date "în timp real" sunt deplasate în baza de date normal după funcționare index (1), într-un mod normal.
Sortare rezultate dupa relevanta sau dupa data
· Motoarele de căutare, de obicei, returnează rezultate mai relevante întâi. Dar dacă sunteți în căutarea pentru cele mai recente pagini, vă pot spune ASPseek pentru a sorta rezultatele de ultima dată modificări, astfel modificat recent (sau create), paginile vor fi afișate primele.
Extrase, cuvinte de interogare subliniind
· Extras este o bucată de documente găsite cu cuvinte căutate pentru a subliniat, doar pentru a da o idee despre ce documentul este vorba. Puteți personaliza numărul de fragmente care prezintă și lungimea lor. Dacă vă va dezactiva extrase, va fi afișat la începutul documentului.
· Fiecare document găsit este însoțită cu link-ul "cache". ASPseek păstrează o copie locală comprimat de fiecare document prelucrat, astfel încât utilizatorul poate vedea întregul document cu (opțional) a subliniat cuvinte care au fost cautat, chiar dacă acesta a fost eliminat din site-ul original (care se întâmplă uneori).
Rezultatele Gruparea de site-
· Rezultatele de la un site pot fi grupate împreună. Dacă gruparea de site-uri este în numai două rezultate sunt afișate din același loc în mod implicit, și utilizatorul poate vedea alte pagini de pe același site, urmând "Mai multe rezultate de la ..." link.
Clonele
· Clonele sunt documente identice în locații diferite. Ele sunt detectate și grupate, astfel încât utilizatorul nu va fi prezentat cu o pagină plină de URL-uri la documentele identice.
· Detectare Clone este de obicei limitat de un singur site (asa documente identice din diferite site-uri nu sunt numărate ca clone), dar puteți schimba acest lucru prin recompilarea ASPseek cu---disable-clone-de site-ul opțiune.
Spații și subseturi
· Space este un set de site-uri. Deci, dacă vrei să oferi căutarea redus la un anumit domeniu, puteți crea un spațiu și de căutare în acest spațiu. Numai site-uri întregi (de exemplu, http://www.mysite.com/) li se permite să fie incluse în spațiu.
· Subseturile pot fi de asemenea utilizate pentru a restricționa căutarea. Puteți crea subset și pune masca URL (cum ar fi http://www.mysite.com/mydir/%) în care, și apoi limita căutarea domeniu a subset dat doar.
· Puteți restricționa căutarea domeniu nu numai una, ci mai multe subseturi sau spații.
Template-uri HTML pentru rezultatele de căutare ușor de personaliza
· Puteți personaliza paginile de căutare, astfel încât acestea vor arata ca si fi perfect integrate cu restul site-ului. Acest lucru se face prin simpla editare a fișierului șablon de căutare.
Instalare
gzip-dc aspseek-1.2.10.tar.gz | tar xf -
cd aspseek-1.2.10. / configurarea
face
su
make install
Detalii soft:
Versiune: 1.2.10
Incarca data: 3 Jun 15
Licenţă: Gratuit
Popularitate: 83
Comentariile nu a fost găsit