Sử dụng tính năng Ngừng thu thập hợp lý
Chào các bạn, hôm nay có một bạn hỏi về tính năng Ngừng thu thập và cụ thể vấn đề như sau:
- Ngừng thu thập khi truyện có chuyên mục là Adult.
- Ngừng thu thập khi truyện có trạng thái Hoàn thành và tới trang cuối.
- Ngừng thu thập khi truyện có trạng thái Hoành thành và khi thu thập lại từ trang cuối.
Vậy làm thế nào để cấu hình Ngừng thu thập hợp lý trong trường hợp này?
Đầu tiên chúng ta cần phải đọc lại các tính năng trong phần Ngừng thu thập:
- Ngừng thu thập trong TẤT CẢ lần chạy:
Nếu bài viết được phân trang, các dữ liệu Khớp sẽ được kết hợp với nhau qua từng trang và lưu vào cơ sở dữ liệu. - Ngừng thu thập trong MỖI lần chạy:
Nếu bài viết được phân trang, các dữ liệu Khớp sẽ được thay đổi qua từng trang. - Kết hợp ngừng thu thập:
Nếu kích hoạt, chỉ khi hai tính năng trên đều có dữ liệu Khớp thì URL bài viết mới được xóa. - Ngừng thu thập khi tới trang cuối:
Nếu ngừng thu thập trong tất cả lần chạy hoặc trong mỗi lần chạy có dữ liệu Khớp và trình thu thập đi đến trang cuối cùng thì URL bài viết sẽ được xóa.
Và chúng ta sẽ phân ra 3 trường hợp như sau:
Trường hợp 1
Khi KDN Auto Leech thu thập một truyện lần đầu tiên (thu thập mới) và ngay ở trang giới thiệu Truyện nó đã phát hiện ra chữ Adult thì nó sẽ không thu thập và xóa ngay URL. Ta sẽ cấu hình như sau:
Vào TAB Bài viết > Ngừng thu thập:
Như bạn thấy ở trên, khi đánh dấu vào Kết hợp ngừng thu thập thì chỉ khi cả 2 tính năng đều có dữ liệu Khớp thì Ngừng thu thập mới xảy ra.
Trong trường hợp này, khi KDN Auto Leech vào trang giới thiệu Truyện nó đã phát hiện ra chữ Adult và do Ngừng thu thập trong TẤT CẢ lần chạy và trong MỖI lần chạy đều viết cùng một phần tử, vậy nên chúng ta có 2 kết quả Khớp giống nhau. Và khi kích hoạt Kết hợp ngừng thu thập + 2 kết quả Khớp thì lúc này Ngừng thu thập sẽ xảy ra và hãy nhìn tính năng Ngừng thu thập không lưu bài viết đã được kích hoạt, như vậy lúc này URL hiện tại sẽ bị xóa ngay lập tức và không lưu thành Truyện.
Như vậy là khi KDN Auto Leech vào một URL truyện lần đầu tiên (thu thập mới), nếu nó gặp chữ Adult thì nó sẽ không lưu thành truyện và xóa ngay URL đó.
Hãy suy nghĩ và tưởng tượng…
Trường hợp 2
Khi KDN Auto Leech vào một truyện lần đầu tiên (thu thập mới) và phát hiện ra chữ Hoàn thành, nó sẽ thu thập nhưng khi đến trang cuối thì sẽ Ngừng thu thập và xóa URL. Ta cấu hình thêm như sau:
Vào TAB Bài viết > Ngừng thu thập:
Vậy là khi KDN Auto Leech vào thu thập một truyện lần đầu tiên (thu thập mới), nó gặp chữ Hoàn thành và khi kích hoạt Kết hợp ngừng thu thập và Ngừng thu thập khi tới trang cuối thì nó sẽ thu thập tất cả các trang (chương) và khi tới trang (chương) cuối nó sẽ Ngừng thu thập và xóa URL.
Hãy tiếp tục suy nghĩ và tưởng tượng…
Trường hợp 3
Khi KDN Auto Leech vào thu thập một truyện lần đầu tiên (thu thập mới), nó không gặp chữ Adult và cũng không gặp chữ Hoàn thành thì nó sẽ thu thập truyện và tất cả các chương như bình thường.
Nhưng khi KDN Auto Leech tiến hành Thu thập lại từ trang cuối và lúc này truyện ở website mục tiêu đã đổi sang Hoàn thành, vậy làm thế nào để KDN Auto Leech biết được truyện đó đã Hoàn thành khi mà ở lần Thu thập lại nó chỉ quét từ trang cuối?
Hãy để ý một chút, khi bạn kích hoạt Thu thập lại từ trang cuối ở TAB Chung và kích hoạt Bài viết con thì ở phần Ngừng thu thập trong TAB Bài viết con sẽ xuất hiện một tính năng, đó là Ngừng thu thập cho trang đầu tiên (chỉ lần chạy đầu tiên)
Khi bạn sử dụng tính năng này thì ở mỗi lần Thu thập lại KDN Auto Leech sẽ quét trang cuối đồng thời quét luôn trang đầu tiên (chính là trang giới thiệu truyện). Vậy nên ta cấu hình như sau:
Vào TAB Bài viết con > Ngừng thu thập:
Như vậy, giả sử ở lần thu thập đầu tiên (thu thập mới) KDN Auto Leech sẽ thấy Truyện A không phải Adult và chưa Hoàn thành thì KDN Auto Leech sẽ thu thập Truyện A tới trang N (trang cuối). Sau đó, KDN Auto Leech sẽ Thu thập lại từ trang cuối, lúc này nó sẽ quét trang cuối đồng thời quét luôn cả trang đầu tiên, ngay tại thời điểm này sẽ có 2 dữ liệu:
- Dữ liệu của trang đầu tiên
- Dữ liệu của trang cuối
Nếu như, Dữ liệu của trang đầu tiên có chứa chữ Hoàn thành và Dữ liệu của trang cuối không tìm ra URL trang tiếp theo (tức là vẫn trang cuối) thì sẽ Ngừng thu thập và xóa URL.
Tổng kết
Như vậy, tổng kết cấu hình để giải quyết 3 vấn đề trên như sau:
TAB Bài viết
TAB Bài viết con
Hy vọng các bạn vừa đọc vừa suy ngẫm và tưởng tượng ra quá trình hoạt động của KDN Auto Leech trong mỗi trường hợp, đọc nhiều lần để càng thêm hiểu. Chúc bạn thành công!