¡Vd. usa un navegador obsoleto!

Es posible que la página no se visualice correctamente.

Términos especiales

СпецНаз (специальные названия)

Otras ediciones de este tema (47)
  • añadir a favoritos
    Añadir a marcadores

Scrapping

Consultas: 738 Comentarios: 3 Ranking: 11

viernes 22 de junio de 2018

El término Big data y las conversaciones sobre el análisis de los mismos son muy populares hoy día. El análisis de grandes volúmenes de la información de varios tipos es útil para varios fines. Pero antes de analizar algo, hay que recopilarlo. Y no se puede usar filtraciones (hasta legales, como fue en caso de Facebook). No todos los clientes se conforman con las fuentes de información dudosas.

En caso de los datos de Internet nos ayuda scraping (de inglés scraping – «raspado», o crawling, de inglés crawling – «gateo») — un proceso de búsqueda y descarga de los datos de las páginas web con robots especiales — scarpers/crawlers que imitan el comportamiento humano.

Los sitios web modernos no suelen ser estáticos – el aspecto de las páginas del sitio web depende del sistema operativo usado por el usuario, el navegador, los permisos de acceso a la información, las restricciones de la legislación, los complementos usados etc. Por lo tanto, no se puede simplemente entrar en algún recurso y descargar toda la información del mismo – en la parte del usuario, una vez cargados los recursos del sitio web, deben funcionar los scripts cargados junto con otros recursos que facilitan la consulta y el uso de la información descargada.

Es necesario imitar a un usuario que entre en algún sitio web. Es más, a un usuario que trabaja en este sitio web. ¿Para qué se necesita esto? ¿Cómo se puede acceder de otra forma a los sitios web que requieren contraseña o captcha?

Casi de la misma forma funcionan los bots de sistemas de búsqueda. Pero son legales. Así, por ejemplo, los sitios web usan los archivos robots.txt cuyo contenido demuestra al robot de búsqueda que algunas secciones del sitio web no son públicas, es decir, no deben ser indexadas y visualizadas en los resultados de búsqueda. Pero los scarpers que no respetan las leyes no le hacen caso a robots.txt y obtienen cualquier tipo de información, así mismo, la información privada. Si tomamos en cuenta que la mayoría de los usuarios usa contraseñas de tipo 12345678, esta tarea ya no parece tan difícil.

¿Dónde se puede usar todo esto? Por ejemplo, los competidores desean obtener el contenido de una tienda en Internet ajena, y no simplemente obtenerlo, sino también supervisar los cambios de posiciones y precios. ¿Para qué? En caso de enterarse sobre los descuentos, así pueden implementar los suyos u organizar promociones.

¿Qué más términos debe conocer uno en caso de recopilación de datos? Primero, un parser, un programa o un conjunto de programas responsables del análisis primario de los datos.

— ¿Cuánto dura el parsing de un solo sitio web?

— Y ¿cuánto vale una píldora? Depende de los tamaños del sitio web, del periodo de respuesta del servidor a solicitudes. En la práctica, para algunos sitios suele tardar una semana. Por ejemplo, para un sitio web el periodo de parsing fue de 44 minutos y 10 segundos, se recibieron 1550 entradas para 1897 solicitudes.

Y lo más importante:

Por último, quería hablar un poco sobre parsing, y también con Tor. Obtener los datos está de moda y es interesante, uno puede obtener los conjuntos de datos que nunca habían sido procesados, hacer algo nuevo, etc. Pero no debemos olvidar que las restricciones del servidor no aparecieron sin razón, sino para proteger el sitio web contra los ataques de solicitudes y DDoS. Debemos respetar el trabajo de otras personas, hasta si el servidor no tiene ninguna protección, no debemos enviar muchas solicitudes al mismo, sobre todo si esto puede causar su desactivación, porque existen sanciones penales.

https://habr.com/company/ods/blog/346632/

#terminología #sitio web #Internet

El mundo de antivirus recomienda

Se puede protegerse contra los recopiladores de datos similares, aunque no es fácil. Por ejemplo, para cada actualización se puede cambiar los nombres de clases y las variables en los archivos de sitio web. Se puede supervisar el crecimiento del número de solicitudes de determinados tipos y bloquearlas.

  • Proteja el sitio web contra los ataques de tipo SQL injection.
  • No cree los nombres de carpetas y las rutas a las mismas para que el mecanismo de su generación quede muy claro. Por ejemplo, si hay rutas de tipo /topic/11, /topic/12 etc., esto significará que es posible seleccionar los datos al consultar los enlaces con nombres similares.
  • Cree el diseño dinámico de las páginas, pero no se empeñe mucho en esto – los robots de búsqueda pueden no encontrar la información que Vd., al contrario, intenta difundir.
  • No permita muchas solicitudes de búsqueda desde una página, restrinja el número y la duración de sesiones desde la misma dirección IP o el dominio.
  • Para acceder a los datos, use las contraseñas seguras y captcha.
  • No olvide comprobar los logs del sitio web en busca de rastros de hackeo.
  • Restrinja el listado de IP de los servidores proxy populares a través de los cuales los “usuarios” pueden penetrar en su equipo.
  • En caso de detectar a un “usuario” sospechoso, no se lo informe, no le revele cómo le había detectado.
  • Formalice las normas de uso de los recursos del sitio web y use los servicios jurídicos de calidad.

No piense que en caso de cumplir con todos los requisitos Vd. estará a salvo. Es muy probable que aparezca algo nuevo. Su equipo debe analizar constantemente el comportamiento de sus usuarios y visitantes. Este procedimiento requerirá tiempo y recursos financieros, pero es muy importante para cualquier proyecto.

https://itsvit.org/blog/metody-zashhity-ot-web-scraping/

[Twitter]

Nos importa su opinión

Para redactar un comentario, debe iniciar sesión para entrar en su cuenta del sitio web Doctor Web. - Si aún no tiene la cuenta, puede crearla.

Comentarios de usuarios