Los datos se han convertido en uno de los recursos más valiosos de la era moderna, como consecuencia del crecimiento del volumen de capacidades de generación, almacenamiento, manipulación y transmisión de información de las tecnologías de la información y las comunicaciones (TIC). Para 2025 se proyecta que el volumen de datos a nivel mundial supere los 180 zettabytes, lo que refleja un crecimiento excepcional desde 2009, cuando un solo zettabyte almacenaba toda la información de los ordenadores del mundo.
En este contexto, el acceso a los datos emerge como un tema de vital importancia. Gran cantidad de ellos se encuentra accesibles desde internet, utilizando métodos como la navegación manual, consumo de APIs y web scraping, lo que destaca la relevancia de las buenas prácticas y herramientas de acceso a los datos.
Los datos se pueden clasificar en públicos y privados, siendo los primeros accesibles sin restricciones especiales, mientras que los segundos están protegidos y requieren permisos específicos. Aunque existen condiciones éticas y legales que regulan el acceso a los datos, como las leyes de privacidad, el tratamiento de datos personales, los derechos de autor y los términos de servicio de los sitios web, estas no siempre se cumplen, lo que puede generar problemáticas, especialmente cuando se trata de datos sensibles.
Independiente del propósito, la recopilación de datos en la web es un proceso fundamental que implica la recolección sistemática y organizada de información disponible. Cuando el volumen de datos es pequeño, la extracción puede realizarse navegando por las páginas de interés, seleccionando la información deseada y copiandola en otra fuente. Sin embargo, este enfoque resulta poco eficiente al enfrentarse a grandes volúmenes de información. Es aquí donde toman protagonismo técnicas automatizadas como el web scraping y los bots. El web scraping es una técnica de extracción de información de sitios web mediante programas de software. Por su parte, los bots son programas diseñados para automatizar tareas en la web. En el contexto del web scraping, los bots pasan a denominarse crawlers o scrapers. Es importante destacar que independientemente de la técnica empleada, la extracción de datos debe realizarse dentro del marco legal y ético correspondiente.
Desde la página de inicio de un sitio web se puede acceder a un archivo llamado robots.txt (Ver Figura 1). En este archivo es posible consultar las restricciones de ese sitio web en cuanto a extracción de datos. Sin embargo, no deja de ser una medida declarativa puesto que la decisión de tener en cuenta o no estas limitaciones depende de la ética del interesado en obtener la información. Es decir, el cumplimiento de estas restricciones es más una cuestión de buenas prácticas que una obligación legal y la existencia de este archivo no garantiza la extracción no consentida de los datos. Por lo tanto, puede notarse que el acceso a la información de datos públicos plantea un importante dilema ético en relación con la privacidad de datos. Aunque es fundamental garantizar la transparencia y la disponibilidad de datos que son de interés público, también es crucial proteger la privacidad de los datos comprometidos. De igual manera, es necesario establecer un equilibrio entre el acceso a la información y la protección de la privacidad, mediante la implementación de políticas y regulaciones que permitan acceder a datos públicos de manera ética y responsable, considerando los derechos individuales de privacidad y seguridad de los datos.
Basado en la experiencia, el equipo de Investigación y Desarrollo del CDT Creatic propone algunas recomendaciones a considerar para la extracción y divulgación de datos en la web:
- Consultar el archivo robots.txt para identificar las restricciones existentes y actuar conforme a ellas.
- Obtener consentimiento de los propietarios de los datos cuando sea necesario.
- Brindar información clara y precisa a los propietarios de los datos sobre cómo están siendo utilizando los datos recopilados.
- Anonimizar los datos sensibles siempre que sea posible, mediante técnicas como el cifrado.
- Implementar medidas de seguridad adecuadas para proteger los datos recopilados contra accesos no autorizados.
Al seguir estas y otras buenas prácticas, se puede garantizar un acceso consistente, ético y responsable a los datos en la web, protegiendo la privacidad y fomentando un uso seguro y beneficioso de la información disponible en línea.
Es de destacar que en Creatic se implementan servicios de consumo de datos como parte de los insumos requeridos para la prestación de servicios y desarrollos tecnológicos, siempre dentro del marco legal y ético correspondiente. La protección de la privacidad de la información es un aspecto que requiere una atención especial, ya que los usuarios deben tener la garantía de que sus datos están siendo tratados de manera segura y respetuosa.
[1] Statista. (2023, Nov 16). Volume of data/information created, captured, copied, and consumed worldwide from 2010 to 2020, with forecasts from 2021 to 2025. [En linea]. Disponible en: https://www.statista.com/statistics/871513/worldwide-data-created/