Framework quét dữ liệu từ các trang báo trực tuyến

Framework quét dữ liệu hỗ trợ render javascript và quét đa luồng – Đọc Báo Crawler
Đọc Báo Crawler là phần lõi quét dữ liệu cuả dự án Theo Dõi Báo Chí được tác giả đóng gói và đơn giản hoá thành một thư viện và template, nhằm giúp các project trong lĩnh vực Machine Learning, Data Science nhanh chóng xây dựng được phần lõi quét dữ liệu phục vụ dự án.
Mã nguồn cuả Đọc Báo Crawler đã được xây dựng và test liên tục trong 1 năm rưỡi qua, và có thể hoạt động ổn định trong môi trường production (xem thêm demo quét song song 35 trang báo sử dụng 10 trình duyệt Firefox cùng lúc tại https://www.youtube.com/watch?v=Y6fl9j6DY1M và website hiển thị dữ liệu đã quét của dự án Theo Dõi Báo Chí tại https://theodoibaochi.com)
Sử dụng Đọc Báo Crawler, các dự án mới tránh sẽ tránh được rất nhiều vấn để ẩn trong bài toán quét dữ liệu. Một vài vấn đề thường gặp nhất bao gồm:
–  Xếp thời gian quét ngẫu nhiên để tránh bị website block
–  Render javascript để lấy được dữ liệu từ các trang sử dụng Ajax
–  Lấy dữ liệu từ các trang đòi hỏi login, ví dụ Facebook
–  Tự động chặn quảng cáo, chặn flash, CSS để giảm băng thông và tăng tốc độ lấy dữ liệu
–  Xử lý các vấn đề liên quan tới cài đặt và resource leak khi sử dụng selenium +firefox
–  Phân bố job và phối hợp nhiều browser tham gia quét đa luồng để tăng hiệu suất cuả toàn hệ thống

Bạn có thể xem hướng dẫn cách sử dụng và tải về Đọc Báo Crawler tại: 

Thông tin tác giả:

Author: hailoc12
Email: danghailochp@gmail.com
Facebook: https://www.facebook.com/danghailochp

 

THAM KHẢO THÊM