Facebook Scraping – Una grave amenaza para la privacidad

2 enero, 2020

Han pasado casi dos años después de la revelación del escándalo de Facebook-Cambridge Analytica. Es de esperar que Facebook haya tomado medidas para evitar que los ciberdelincuentes exploten los datos que compartimos en línea.

Si bien Facebook ha tomado algunos de estos pasos, todavía existe una laguna. Es una puerta que permite a los ciberdelincuentes ver información increíblemente privada sobre los usuarios. Información que el usuario no suele compartir con sus amigos más cercanos. Esa puerta es el scraping

¿Qué es el scraping?

El scraping es simplemente el acto de recopilar información pública de sitios web. Por información pública, estamos hablando del tipo de información accesible para cualquiera que vea un sitio.

Si deseas almacenar datos meteorológicos, puedes escrapear un sitio meteorológico. Si los datos están disponibles públicamente, lo más probable es que puedas recopilarlos.

En el ejemplo anterior, puedes escrapear los datos manualmente. Es decir, puedes visitar todas las páginas cuyos datos deseas almacenar y copiarlas en un archivo. Sin embargo, no es así como normalmente se hace el scraping.

Por lo general, las personas programan bots que rastrean páginas web para ellos. Estos bots pueden visitar una gran cantidad de sitios y monitorearlos las 24 horas del día, los 7 días de la semana. Con esta acción se aseguran de capturar cualquier información que se muestre en estos sitios.

¿Qué recopilan realmente los bots?

Los bots de scraping más comunes en realidad impulsan los motores de búsqueda. Estos bots rastrean los sitios, buscando todos los otros sitios a los que enlaza el sitio original.

Si el bot puede encontrar enlaces a otros sitios, también los rastrea. El bot busca sitios a los que se vincula el nuevo sitio, y así sucesivamente. El proceso continúa y continúa, hasta que los bots hayan encontrado todos los sitios disponibles en Internet. O al menos todos los sitios que están vinculados por al menos otro.

A partir de estos datos, los motores de búsqueda como Google y Bing pueden construir bases de datos integrales de sitios y utilizarlas para mostrar resultados de búsqueda. Cada vez que realizas una búsqueda, el motor de búsqueda recurre a grandes cantidades de datos que ha obtenido del sitio de scraping.

Este es un uso bastante benigno del scraping. Aquí, el scraping se está empleando de una manera que beneficia a todos los involucrados. Los motores de búsqueda (Google, Bing, etc.) se benefician porque pueden ofrecer sitios relevantes a los usuarios. Los usuarios se benefician porque pueden buscar sitios en estos motores. Los sitios se benefician porque los motores de búsqueda les brindan una mayor visibilidad.

De bueno a malo

Sin embargo, no todos los usos del scraping son tan benévolos. Así como el scraping se puede usar para crear motores de búsqueda que lo abarquen todo, el scraping se puede usar para extraer enormes cantidades de datos personales.

Una de esas formas de extraer datos personales es escrapear sitios de redes sociales, como Facebook. Escrapear las páginas de perfil de los usuarios puede proporcionar información básica sobre ellos, con quién son amigos y qué fotos han publicado.

Facebook se da cuenta del daño potencial a la privacidad del usuario al permitir que cualquiera rastree perfiles. Por esta razón, la mayoría de los elementos de un perfil típico de Facebook están configurados como privados. Esto significa que no pueden ser vistos por nadie que ese usuario no haya agregado como amigo.

Si intentas escrapear la cuenta de Facebook de una persona aleatoria, es posible que no puedas obtener mucha información. Como mucho verás su nombre, su foto de perfil y cualquier publicación que no se haya hecho privada.

Los intentos de Facebook para evitar el scraping de perfiles son dignos de elogio, pero no llegan lo suficientemente lejos. Esto se debe a que la información más valiosa que los usuarios crean al usar los productos de Facebook no aparece en su perfil.

Páginas y grupos

Las páginas y grupos de Facebook son dos productos con los que muchos de nosotros estamos familiarizados. Al dar me gusta a las páginas, podemos expresar afinidad por ciertas marcas o causas, y agregar su contenido a nuestros plazos. Al unirnos a grupos, podemos formar parte de comunidades en línea y compartir con otros que comparten nuestros intereses o identidades.

La gran cantidad de páginas y grupos que existen en Facebook es un testimonio del valor que aportan a las personas. El hecho de que haya tantas páginas y grupos en Facebook también significa que se puede obtener una gran cantidad de datos. Podemos saber a quién le gusta qué página y quién es parte de ese grupo.

Algunas de las páginas que nos gustan, o grupos de los que somos miembros, son bastante benignas. Si un anunciante quiere ver si me gusta el ciclismo, no necesita explorar mucho. Simplemente necesita “audiencias de interés” relacionadas con el ciclismo para orientar su publicidad.

Pero, ¿qué sucede si un anunciante quiere apuntar a alguien basándose en atributos mucho más personales? ¿Qué pasa si un anunciante quiere apuntar a alguien en función de su sexualidad, su religión o su origen étnico?

Un vistazo rápido a los grupos y páginas que existen en Facebook muestra que hay un gran número de ellos que atraen a las personas con este tipo de atributos.

Si una persona malintencionada tuviera acceso a las páginas y grupos que seguiste, podría deducir mucho sobre qué tipo de persona eres. Entonces, ¿pueden los ciberdelincuentes acceder a estos datos?

Grupos y páginas de scraping

Para cada página, hay una lista de personas a las que les gusta esa página. Para cada grupo, hay una lista de personas que les gusta ese grupo. Facebook no hace que esta lista esté fácilmente disponible, pero eso no significa que la lista sea particularmente difícil de encontrar.

Digamos que quieres encontrar a todas las personas que les gusta un grupo en particular. Comencemos con un grupo que no sea atractivo para personas con características protegidas, como Running Events. Este es un grupo en el Reino Unido para que las personas compartan eventos. Podemos encontrar una lista de sus miembros simplemente agregando /members a su URL.

La lista completa de los miembros del grupo no se completa inmediatamente, debes seguir desplazándose hacia abajo para ver la lista completa. Esto sería algo tedioso para un humano, lo que significa que un enfoque manual no escalaría.

Uso de bots

Afortunadamente, es bastante simple programar bots que no solo pueden acceder a la lista de miembros de un grupo, sino que también pueden seguir desplazándose hacia abajo en la página como lo haría un humano.

Una vez que el bot se ha desplazado hasta el final, ahora puede comenzar a escrapear la página. Para ello, guarda el HTML de la página y busca marcadores que indiquen las URL de perfil de los usuarios. Se ejecuta mediante programación a través de todo el HTML y guarda la URL del perfil de cada usuario.

En este punto, el bot potencialmente ha hecho su trabajo. Ha recopilado con éxito la URL del perfil de cada persona que es miembro de Running Events. Esto por sí solo ya es una hazaña preocupante. Además de extraer las URL’s de perfil, el bot podría recopilar esas URL’s para extraer datos como los nombres de las personas y cualquier otro atributo que hagan público en su perfil.

Audiencias personalizadas: enriqueciendo los datos

Quizás quien sea que esté llevando a cabo este scraping no solo quiera saber quién está participando en los eventos. Este además quiere dirigirse específicamente a personas con anuncios. ¿Cómo lo hacen?

Facebook te permite cargar datos de clientes en su plataforma de anuncios para apuntar a esos clientes. Este es un proceso conocido como creación de audiencia personalizada

Facebook no quiere permitir que los anunciantes puedan dirigirse a los usuarios cuyos perfiles has recopilado. Tú no puedes simplemente darle a Facebook la lista de URL’s de perfiles que acabas de encontrar.

Para apuntar a estos usuarios, debes enriquecer los datos y encontrar direcciones de correo electrónico y números de teléfono para los usuarios cuyos perfiles recopilastes.

Si puedes encontrar correos electrónicos y números de teléfono de Facebook, además de sus nombres, Facebook tendrá suficientes campos para poder hacer coincidir tus datos con los usuarios de Facebook. Esto te permitirá dirigirte efectivamente a las personas cuyos perfiles has recopilado.

Entonces, si todo lo que sabes es el nombre de alguien y el perfil de Facebook, ¿cómo obtienes tu dirección de correo electrónico o número de teléfono?

Buscadores de personas

Los motores de búsqueda nos permiten buscar sitios. Los motores de búsqueda de personas (PSE) nos permiten buscar personas.

Si bien muy pocos de nosotros habremos usado un PSE, hay una variedad de ellos que están disponibles en línea. Todos los PSE funcionan de la misma manera. Contienen enormes bases de datos de datos personales y permiten a los buscadores encontrar usuarios al proporcionar campos almacenados en esta base de datos.

Uno de los campos que contienen estas bases de datos son las URL de perfil de redes sociales. Al proporcionar una URL de perfil de Facebook a un PSE, el motor puede encontrar al usuario en su base de datos con la misma URL de perfil y decirle todo lo demás que sabe sobre ese usuario.

Opciones de PSE

Algunos de los PSE más conocidos disponibles actualmente son Pipl y CatchID. Ambas compañías rusas, ofrecen API’s que permiten a los usuarios cargar cientos de miles de perfiles de redes sociales. A cambio, se ofrece a los usuarios todo lo que los PSE saben sobre el perfil que se ha subido. Esto a menudo incluye números de teléfono y correos electrónicos.

Si alguien recopila una lista de personas que pertenecen a un grupo particular de Facebook, o que les gusta una página determinada, podrían subir fácilmente sus URL’s de perfil a un PSE.

El PSE, en la mayoría de los casos, podría encontrar un número de teléfono y un correo electrónico de esa persona cuya URL de perfil se subió. Si tienes una lista de los nombres, correos electrónicos y números de teléfono de las personas, puedes subirla en Facebook para apuntar a estas personas con anuncios.

¿Crees que todo esto suena como demasiado trabajo? No te preocupes, hay servicios que pueden manejar el scraping y el enriquecimiento de datos por ti. Uno de estos servicios es LeadEnforce, que automatiza todo el proceso de recopilar miembros del grupo y fans de páginas.

¿Qué significa esto para la privacidad del usuario?

Cuando se nos recuerda cuánta información confidencial expresamos a través de las membresías de nuestros grupos y los gustos de nuestra página, es fácil ver por qué lo anterior representa una gran amenaza para la privacidad del usuario en línea.

Una vez que una persona malintencionada tiene acceso a esta información, hay innumerables formas de abusar de estos. Los datos recopilados podrían usarse para dirigir anuncios farmacéuticos a personas con afecciones médicas específicas. Afecciones que la persona malintencionada ha extraído de las listas de miembros de grupos afines a salud.

No se trata solo de a quién le muestras anuncios; también se trata de a quién no le muestras anuncios. Las posibilidades, lamentablemente, son infinitas.

Enseñando a Facebook cómo se ve una minoría

La amenaza que representa el scraping no se limita a las personas cuyos datos se están recopilando. Al subir datos de personas a las que les gusta una página o grupo, un malintencionado puede mostrarle a Facebook cómo son estas personas. Un mal actor puede hacer esto creando una audiencia similar a partir de los datos que sube.

Más allá de la simple publicidad

Para empeorar las cosas, el peligro no solo termina con la publicidad. Los malintencionados podrían crear bases de datos completas de personas basadas en características específicas. Esto se puede usar esto para informar las decisiones comerciales.

Un proveedor de seguro de salud podría escrapear páginas y grupos relacionados con afecciones médicas en masa. Posteriormente podría utilizar esta información para negar la cobertura de las personas o inflar los precios.

Podría decirse que ni siquiera necesitarías recopilar listas de miembros de páginas o grupos para esto. Si deseas ver todos los me gusta o grupos de la página de un usuario, puedes, si no se han configurado como privados.

Simplemente agrega /likes me gusta o /groups a su URL de perfil de Facebook para obtener una lista completa. En solo segundos, puedes aprender cosas sobre una persona que incluso sus mejores amigos pueden no saber.

Conclusión

Facebook puede no permitir el scraping en sus términos y condiciones. Empero, el hecho de que lo hagan tan fácil de llevar a cabo implica que no lo ven como un problema grave.

Con la cantidad de datos expuestos al poder ver los me gusta de la página de alguien o sus grupos, la amenaza a la privacidad del usuario es grave.

Mientras Facebook no tome medidas para evitar realmente el scraping web, seguirá siendo una amenaza constante para la privacidad del usuario.