CalculatoareProgramare

Ce este un crawler? instrument pe șenile „Yandex“ și Google

În fiecare zi pe Internet există o cantitate mare de materiale noi pentru a crea un site actualizat paginile web vechi, încărca fotografii și clipuri video. Fără a ascuns de motoarele de căutare nu a putut fi găsită în World Wide Web, nici unul dintre aceste documente. Alternative, cum ar fi programe robotizate la un moment dat nu există. Ce este un robot de căutare, de ce ai nevoie de ea și cum să opereze?

Ce este un robot de căutare

site-ul pe șenile (motor de căutare) - este un program automat care este capabil de a vizita milioane de pagini web, navigarea rapid prin Internet, fără nici intervenția operatorului. Botii sunt în mod constant spațiu de scanare a World Wide Web, gasirea de noi pagini web si in mod regulat vizita deja indexate. Alte nume pentru crawlerele web păianjeni, crawlerele, roboții.

De ce sunt păianjeni motor de căutare

Principalele funcții care efectuează păianjeni motor de căutare - pagini web indexate, precum și de text, imagini, fișiere audio și video care sunt pe ele. Roboții verifică referințele, site-uri oglindă (copie) și actualizări. Roboții efectua, de asemenea un control HTML codul pentru standardele de conformitate ale Organizației Mondiale, care dezvoltă și implementează standarde tehnologice pentru World Wide Web.

Ce este indexare, și de ce este nevoie

Indexarea - este, de fapt, este procesul de a vizita o pagina web special de către motoarele de căutare. Programul scanează textul de pe acest site, imagini, clipuri video, link-uri de ieșire, apoi pagina apare în rezultatele căutării. În unele cazuri, site-ul nu poate fi scanat în mod automat, atunci acesta poate fi adăugat la motorul de căutare manual webmaster. De obicei, acest lucru se întâmplă în absența legăturilor externe pentru o anumită pagină ( de multe ori doar recent creat).

Cum antenele motoarelor de căutare

Fiecare motor de căutare are propriul bot cu robotul de căutare Google poate varia semnificativ în funcție de mecanismul funcționează pe un program similar, „Yandex“ sau alte sisteme.

În general, un principiu de lucru robot este după cum urmează: programul „vine“ de la site-ul și link-uri externe de pe pagina principală, „citește“ resursa Web (inclusiv cei care caută deasupra capului, care nu vede utilizatorul). Barca este modul de a naviga între paginile unui site și pentru a trece pe la alții.

Programul va alege care site-ul pentru a indexa? Cel mai adesea „trip“ păianjenul începe cu site-uri de știri sau directoare majore de resurse și agregatori cu greutate mare de referință. Crawler scanează continuu paginile de unul câte unul, cu privire la rata și coerența indexare următorii factori:

  • Interne: perelinovka (legături interne între paginile cu aceeași resursă), dimensiunea site - ului, codul corect, ușor de utilizat și așa mai departe;
  • Extern: greutatea totală de referință, ceea ce duce la site - ul.

Primul lucru pe care căutările de căutare robot de pe orice site de robots.txt. indexare a resurselor în continuare se realizează pe baza informațiilor primite este din acest document. Acest fișier conține instrucțiuni specifice pentru „antene“ care pot crește șansele de accesări de pagini de motoarele de căutare, și, în consecință, pentru a realiza un site de succes mai devreme în „Yandex“ sau Google.

Programul Analogii crawler

De multe ori termenul de „căutare robot“ este confundat cu inteligent, utilizator sau agenți autonomi, „furnici“ sau „viermi“. Imersate diferențe semnificative numai în comparație cu agenți, alte definiții se referă la tipuri similare de roboți.

De exemplu, agenții pot fi:

  • intelectuală: programul, care sunt mutate de la site la site - ul, de a decide în mod independent , cum să procedeze; ele nu sunt foarte frecvente pe internet;
  • Autonomă: Acești agenți ajuta utilizatorul în selectarea unui produs, căutare, sau completarea formularelor, așa-numitele filtre, care sunt puțin legate de programele de rețea;.
  • utilizator: programul contribuie la interacțiunea utilizatorului cu World Wide Web, un browser (de exemplu, Opera, IE, Google Chrome, Firefox), mesageri (Viber, telegrama) sau programe de e-mail (MS Outlook și Qualcomm).

„Furnicile“ și „viermi“ sunt mai similare cu motorul de căutare „păianjeni“. Prima formă între o rețea și consecvent interacționa ca aceasta colonie de furnici, „viermi“ este capabil de a se replica în alte privințe la fel ca crawler standardul.

Varietate de roboți motor de căutare

Se face deosebirea între mai multe tipuri de crawler. În funcție de scopul programului, acestea sunt:

  • „Mirror“ - duplicatele sunt navigarea pe site-uri.
  • Mobile - accent pe versiuni mobile ale paginilor web.
  • Rapid - repara rapid informațiile noi prin vizualizarea cele mai recente actualizări.
  • Referință - indicele de referință, conta numărul lor.
  • Indexers diferite tipuri de conținut - programe specifice pentru text, audio, video, imagini.
  • „Spyware“ - caută pagini care nu sunt încă afișate în motorul de căutare.
  • „Ciocănitoarea“ - vizita periodic site-uri pentru a verifica relevanța și eficiența acestora.
  • National - răsfoind resursele web situate pe unul dintre domeniile de țară (de exemplu, .mobi sau .kz .ua).
  • Global - indicele de toate site-urile naționale.

Roboți motoarele de căutare majore

Există, de asemenea, unele păianjeni motor de căutare. În teorie, funcționalitatea lor poate varia foarte mult, dar, în practică, programele sunt aproape identice. Principalele diferențe de indexare pagini web roboți două motoare de căutare majore sunt după cum urmează:

  • Exigența de testare. Se crede că mecanismul de șenile „Yandex“ estimări oarecum mai stricte site pentru conformitatea cu standardele World Wide Web.
  • Păstrarea integrității site - ului. Indicii pe șenile Google întregul site (inclusiv conținut media), „Yandex“ poate vizualiza, de asemenea, conținutul în mod selectiv.
  • Test de viteză pagini noi. Google adaugă noi resurse în rezultatele de căutare în câteva zile, în cazul „prin Yandex“ proces poate dura două săptămâni sau mai mult.
  • Frecvența de re-indexare. Crawler „Yandex“ verifica pentru actualizări de două ori pe săptămână, iar Google - una la fiecare 14 zile.

Internet, desigur, nu se limitează la cele două motoare de căutare. Alte motoare de căutare au roboți lor, care urmează propriul lor parametri de indexare. În plus, există mai multe „antene“ care sunt proiectate resurse de căutare nu majore, și echipe individuale sau webmasteri.

concepții greșite comune

Contrar credintei populare, „păianjeni“ nu procesează informația. Programul doar scanează și stochează pagini web și procesarea durează complet diferite roboți.

De asemenea, mulți utilizatori cred că motorul de căutare păianjeni au un impact negativ și internet „dăunător“. De fapt, unele versiuni de „antene“ pot supraîncărca în mod semnificativ server. Există, de asemenea, un factor uman - webmaster, care a creat programul, poate face greșeli în configurația robotului. Cu toate acestea, cele mai multe dintre programele existente sunt bine concepute și gestionate profesional, precum și orice probleme care apar eliminate cu promptitudine.

Cum de a gestiona indexarea

roboții motoarelor de căutare sunt programe automate, dar procesul de indexare poate fi controlat parțial de către webmaster. Acest lucru ajută foarte mult externe și optimizarea internă a resursei. În plus, puteți adăuga manual un site nou la un motor de căutare: resurse mari au o formă specială de înregistrare de pagini Web.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ro.delachieve.com. Theme powered by WordPress.