Anonim

Executo un lloc web per a un client on mostra una gran base de dades d’informació que ha anat aplegant de forma precisa i lenta al llarg dels anys. Estan trobant les seves dades a la xarxa en diversos llocs. Més que probablement és degut a un rascador que passa pel seu lloc pàgina per pàgina i extreure la informació que necessiten en una base de dades pròpia. I per si us pregunteu, saben que són les seves dades a causa d’una sola informació plantada de cada categoria del lloc.

He fet moltes investigacions sobre això els darrers dies i puc dir-vos que no hi ha una solució perfecta. Tanmateix, he trobat diverses coses que fer per fer-ho una mica més difícil. Això és el que he implementat per al client.

Dades paginades ajudes

Si teniu moltes dades paginades i pagineu les dades només heu d'afegir un número diferent al final de la vostra URL, és a dir: http://www.domain.com/category/programming/2 - Aleshores, esteu fent la feina del rastrejador és molt més senzilla. El primer problema és que es troba en un patró fàcilment identificable, de manera que establir un rascador solt en aquestes pàgines és tan senzill. Segon problema, independentment de l’URL de les pàgines posteriors de la categoria, és més probable que hi hagi un enllaç següent i anterior perquè s’hi adjunti.

Si carregueu les dades paginades a través de javascript sense que es torni a carregar una pàgina, això complica significativament la feina per a molts rascadors. Google només recentment va començar a analitzar Javascript a la pàgina. Hi ha poc inconvenient per tornar a carregar dades com aquesta. Proporcioneu unes quantes pàgines menys perquè Google indexi, però, tècnicament, les dades paginades haurien d’apuntar a la pàgina de la categoria arrel mitjançant canonicalització. Ajusteu les vostres pàgines de dades amb pàgines.

Randomize la sortida de la plantilla

Els rascadors sovint es personalitzaran lleugerament per a les vostres dades específicament. S'enganxaran a una determinada identificació o classe div amb el títol, la tercera cel·la de cada fila per a la vostra descripció, etc. Hi ha un patró fàcilment identificable perquè la majoria dels rascadors treballin amb la majoria de dades que provenen de la mateixa taula, es mostra mitjançant la mateixa plantilla. Aleatitzeu els vostres identificadors i els noms de classe i introduïu les columnes de taula en blanc de manera aleatòria amb 0 d'amplada. Mostra les dades en una taula d’una pàgina, en divs amb estil i en una combinació d’una altra plantilla. En presentar les vostres dades de manera previsible, es pot rascar de manera previsible i precisa.

Pot de mel

Això és bastant ordenat per la seva senzillesa. He trobat aquest mètode en diverses pàgines sobre la prevenció del rastreig de llocs.

  • Creeu un fitxer nou al servidor anomenat gotcha.html.
  • Afegiu el fitxer robots.txt:
    User-agent: *
    Rehabilita: /gotcha.html

    Això indica que tots els robots i aranyes que hi ha indexen el vostre lloc per no indexar el fitxer gotcha.html. Qualsevol rastrejador web normal respectarà els desitjos del fitxer robots.txt i no accedirà a aquest fitxer. és a dir, Google i Bing. És possible que realment vulgueu implementar aquest pas i espereu 24 hores abans de passar al següent pas. D’aquesta manera, es garantirà que un rastrejador no us bloqueixi per error, ja que ja es trobava a mig rastrejar quan heu actualitzat el fitxer robots.txt.
  • Col·loqueu un enllaç a gotcha.html en algun lloc del vostre lloc web. No importa on. Us recomano al peu de pàgina, però, assegureu-vos que aquest enllaç no sigui visible, en CSS, pantalla: cap;
  • Ara, registreu la IP / informació general del personal que ha visitat aquesta pàgina i la bloquegeu. De forma alternativa, podeu oferir un script que els proporcioni dades incorrectes i d'escombraries. O potser un bon missatge personal de vosaltres.

Els telespectadors web habituals no podran veure l'enllaç, de manera que no es farà clic de forma accidental. Els rastrejadors reputables (per exemple, Google), respectaran els desitjos dels robots.txt i no visitaran el fitxer. Per tant, els únics equips que haurien de topar amb aquesta pàgina són els que tenen intencions malintencionades, o algú que veu el codi font i fa clic a l’atzar (i, bé, si això succeeix).

Hi ha un parell de raons per les quals pot no sempre funcionar. Primer, molts rascadors no funcionen com els rastrejadors web normals i no només descobreixen les dades seguint cada enllaç des de cada pàgina del vostre lloc. Els rascadors sovint es creen per arreglar-los en determinades pàgines i segueixen només algunes estructures. Per exemple, es podria iniciar un rascador en una pàgina de categories i, a continuació, se li va dir que només visiti URL amb la paraula / dades a la posta. En segon lloc, si algú està executant el seu rascador a la mateixa xarxa que d’altres i hi ha una IP compartida que s’utilitza, tindreu prohibida tota la xarxa. Hauríeu de tenir un lloc web molt popular perquè això fos un problema.

Escriu dades a les imatges sobre la marxa

Trobeu un camp de dades més petit, no necessàriament llargues cadenes de text, ja que pot dificultar l'estil de la pàgina. Sortint aquestes dades dins d’una imatge, em sento bastant segur que hi ha mètodes en gairebé tots els llenguatges de programació per escriure text a una imatge de forma dinàmica (en php, imagettftext). Probablement sigui més eficaç amb valors numèrics, ja que els nombres ofereixen un avantatge SEO molt més insignificant.

Alternativa

Aquesta no era una opció per a aquest projecte. Necessiteu un inici de sessió després d’una certa quantitat de visualitzacions de pàgines o que mostreu una quantitat limitada de les dades sense haver-vos d’iniciar sessió. És a dir, si teniu 10 columnes, només en mostrarà 5 a usuaris no connectats.

No us equivoqueu

No us molesteu en intentar obtenir algun tipus de solució basada en l’agent d’usuari del bot. Aquesta informació pot ser esferada per un rascador que sap el que fan. Per exemple, el bot bot de Google es pot emular. És molt probable que no vulgueu prohibir Google.

Prevenció del rascat de llocs