DDos
VIP Members
-
22/10/2013
-
524
-
2.191 bài viết
Parsero- Công cụ kiểm tra Robots.txt tự động
Một trong những thứ bạn cần làm khi bạn thực hiện kiểm tra một websites đó là tìm kiếm và xem file Robots.txt. Người quản trị web viết file này để nói cho các công cụ search engine như Google, Bing, Yahoo.. về việc các website này có thể index hoặc không (tùy vào nội dung của file robots.txt).
Một câu hỏi được đặt ra là: Tại sao người quản trị web lại muốn ẩn một vài đường dẫn website tới các công cụ tìm kiếm?
Đôi khi, người quản trị web muốn ẩn file này bởi vì họ muốn ẩn trang đăng nhập, các đường dẫn quản lý web, thông tin cá nhân, dữ liệu nhạy cảm, ...
Parsero
Như đã nói ở trên, người quản trị sẽ "nói" với các công cụ tìm kiếm về các đường dẫn hoặc các file được index hoặc không index bằng cách viết "Disallow: /URL_Path" trong file Robots.txt. Bạn có thể sử dụng Parsero để kiểm tra HTTP status code của mỗi trường Disallow để kiểm tra một cách tự động nếu đường dẫn đó là khả dụng hay không.
Khi chúng ta sử dụng Parsero, chúng ta có thể bắt gặp HTTP status code dưới đây:
Công cụ này yêu cầu Python3 trở lên và có thể cài đặt công cụ này trên Linux, Windows, MacOS...
Trong bài này mình sẽ sử dụng Kali Linux.
Mở terminal và nhập các lệnh sau:
sudo apt-get install python3
sudo apt-get install python3-pip
sudo pip-3.3 install urllib3
Sau khi hoàn thành, bạn tải Parsero tại:
Hoặc có thể sử dụng lệnh:
git clone https://github.com/behindthefirewalls/Parsero.git
Khi download công cụ này, bạn sẽ nhìn thấy một thư mục với 3 file.
Nhập lệnh: python parsero.py để chạy công cụ
Ví dụ 1:
Trong hình dưới đây, bạn có thể nhìn thấy file Robots.txt của web server. Khi bạn kiểm tra website, bạn cần để ý tới trường Disallow để cố gắng thu thập nhiều thông tin giá trị. Một người kiểm tra web luôn muốn biết đường dẫn hoặc file nào trên website mà người quản trị web không muốn hiện thị nó trên các công cụ tìm kiếm.
Bạn có thể thực hiện chức năng này sử dụng Parsero với lệnh sau:
python parsero.py -u www.example.com Như hình dưới đây, các link màu xanh là link mà nó khả dụng trên web server.
Nếu bạn truy cập www.example.com/server-status/ bạn có thể thấy Apache logs mà nó public nhưng được ẩn tới các công cụ tìm kiếm.
Ví dụ 2: Trong hình dưới đây, bạn có thể nhìn thấy file robots.txt với khá nhiều trường Disallow.
Nếu bạn sử dụng Parsero, bạn sẽ kiểm tra tất cả nội dung file Robots.txt chỉ trong một vài giây.
Một câu hỏi được đặt ra là: Tại sao người quản trị web lại muốn ẩn một vài đường dẫn website tới các công cụ tìm kiếm?
Đôi khi, người quản trị web muốn ẩn file này bởi vì họ muốn ẩn trang đăng nhập, các đường dẫn quản lý web, thông tin cá nhân, dữ liệu nhạy cảm, ...
Parsero
Như đã nói ở trên, người quản trị sẽ "nói" với các công cụ tìm kiếm về các đường dẫn hoặc các file được index hoặc không index bằng cách viết "Disallow: /URL_Path" trong file Robots.txt. Bạn có thể sử dụng Parsero để kiểm tra HTTP status code của mỗi trường Disallow để kiểm tra một cách tự động nếu đường dẫn đó là khả dụng hay không.
Khi chúng ta sử dụng Parsero, chúng ta có thể bắt gặp HTTP status code dưới đây:
- 200 OK The request has succeeded.
- 403 Forbidden The server understood the request, but is refusing to fulfill it.
- 404 Not Found The server hasn't found anything matching the Request-URI.
- 302 Found The requested resource resides temporarily under a different URI
- ...
Công cụ này yêu cầu Python3 trở lên và có thể cài đặt công cụ này trên Linux, Windows, MacOS...
Trong bài này mình sẽ sử dụng Kali Linux.
Mở terminal và nhập các lệnh sau:
sudo apt-get install python3
sudo apt-get install python3-pip
sudo pip-3.3 install urllib3
Sau khi hoàn thành, bạn tải Parsero tại:
HTML:
http://hulkload.com/7qgyzfq5nlua
Hoặc có thể sử dụng lệnh:
git clone https://github.com/behindthefirewalls/Parsero.git
Khi download công cụ này, bạn sẽ nhìn thấy một thư mục với 3 file.
Nhập lệnh: python parsero.py để chạy công cụ
Ví dụ 1:
Trong hình dưới đây, bạn có thể nhìn thấy file Robots.txt của web server. Khi bạn kiểm tra website, bạn cần để ý tới trường Disallow để cố gắng thu thập nhiều thông tin giá trị. Một người kiểm tra web luôn muốn biết đường dẫn hoặc file nào trên website mà người quản trị web không muốn hiện thị nó trên các công cụ tìm kiếm.
Bạn có thể thực hiện chức năng này sử dụng Parsero với lệnh sau:
python parsero.py -u www.example.com Như hình dưới đây, các link màu xanh là link mà nó khả dụng trên web server.
Nếu bạn truy cập www.example.com/server-status/ bạn có thể thấy Apache logs mà nó public nhưng được ẩn tới các công cụ tìm kiếm.
Ví dụ 2: Trong hình dưới đây, bạn có thể nhìn thấy file robots.txt với khá nhiều trường Disallow.
Nếu bạn sử dụng Parsero, bạn sẽ kiểm tra tất cả nội dung file Robots.txt chỉ trong một vài giây.
Chỉnh sửa lần cuối bởi người điều hành: