Antiguamente no existia ninguna solución, debias conocer la URL, excepto, crear tu propio crawler que navegara de forma recursiva (ya lo veremos más adelante). Sin embargo, desde hace poco la aplicación de DarkSearch nos simplifica este trabajo de una forma muy fácil.

De igual manera que Google, insertaremos las palabras que queremos buscar. Nos dará los resultados con una estructura típica de los motores de búsqueda: los enlaces con sus títulos y breves descricipciones. No obstante, para que funcioneo deberemos acceder desde la red de Tor.

Captura de pantalla como ejemplo de búsqueda en la aplicación de DarkSearch.

Ahora vamos a usar la API con Python3, para ello, debemos importar 2 librerias: Requests y JSON. La primera para realizar las peticiones GET que lanzaremos y la otra para tratar los datos que nos devuelva. Creo que por defecto vienen con Python3.

Captura de pantalla de Visual Code.

La librería Requests tiene diferentes parametros que nos ayudará a conectarnos al puerto “9050”, que es por defecto en TOR. Es importante saber que, para que funcione el pequeño script debemos estar conectados a TOR. Puede ser de dos formas, en su ordenador u otro. Pero si se conecta a otro, debes saber que, esa comunicación estará fuera de TOR. Por ello, recomiendo hacerlo en local.


Captura de pantalla de Visual Code creando una conexión proxie a TOR.

¿Cómo funciona la API?

La verdad, no tiene mucha dificultad, por no decir, ninguna. En su web nos lo dejan todo muy clarito:

Captura de pantalla de la perte mediana de la web https://darksearch.io donde se señala donde pinchar para acceder a la documentación de la API.

Como podemos observar la web a día de hoy tiene 65006 páginas indexadas. No está nada mal.

Captura de pantalla del funcionamiento de la API y la estructura JSON.

Programamos con Python la petición:

Captua de pantalla de una petición GET con la librería Requests y el uso de JSON para mayor manejo de los datos.

Quizás lo más dificil es la paginación. Ya que la API solo nos devuelve 20 resultados por página. Deberemos crear un bucle para obtener todos los resultados quedando al final el código así:

Captura de pantalla del código en Python.

Pues ya tenemos la primera parte de nuestro motor de búsqueda de la Deepweb. Habéis visto que no es complejo y se puede desarrollar en pocos minutos. En el próximo artículo usaremos la API de IntelX.

El código lo obtendréis para que podáis jugar con él. Estará subido dentro del repositorio de Dante’s Gates Minimal Versión. Pero no lo publicaré hasta que no termine la saga de artículo.

Continuara…

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.