Thẻ một rổ thông tin để lấy khi lên chiến dịch

Việc tạo một chiến dịch trong đó đi tìm các phần tử html chứa các thông tin cần lấy đôi khi hơi mất thời gian nếu không xác định được nhanh chóng, cho nên hôm nay mình xin chia sẻ cách xác định những thông tin cơ bản của một bài viết qua thẻ <head> . Các website có các mã nguồn khác nhau thì các thông tin trong thẻ <head> không thể giống nhau được tuy nhiên cơ bản thì vẫn khá giống nhau về cấu trúc .

Trong HTML, phần tử <head> là bộ chứa siêu dữ liệu (metadata) được đặt trong thẻ <html> và thẻ <body>. Siêu dữ liệu HTML là dữ liệu về tài liệu HTML và không được hiển thị.

Siêu dữ liệu thường định nghĩa tiêu đề văn bản, bộ kí tự, kiểu cách, đường dẫn, kịch bản và các thông tin khác. Dưới đây là các thẻ mô tả siêu dữ liệu <title>, <style>, <meta>, <link>, <script>, <base>….

Để lấy các thông tin trong thẻ mình xin chia sẻ cách lấy một số cái cơ bản như sau, tùy theo các thông tin nào được hiển thị các bạn có thể lấy thoải mái :V

<meta name=“description” content=“Chuyên truyện ngôn tình hot nhất hiện nay, có rất nhiều truyện hay tình cảm ngôn tình xuyên không cổ đại được cập nhật nhanh nhất.”>

Đoạn này là description của bài viết hoặc trang chủ, chuyên mục tag.

Các bạn có thể sử dụng description này làm mô tả ngắn cho bài viết .

Các bạn có thể để ý trong head nó có thẻ :

<meta name=“description” content=“Chuyên truyện ngôn tình hot nhất hiện nay, có rất nhiều truyện hay tình cảm ngôn tình xuyên không cổ đại được cập nhật nhanh nhất.”>

Thì ta viết : Meta[name=”descriptinon”] và thuộc tính chứa là content.

Thuộc tính này có thể là href như kiểu mình đã lấy trong Cách lấy slug bài viết trong chiến dịch plugins KDN Auto Leech

<meta property=“article:modified_time” content=“2020-11-13T00:36:18+00:00”>

Phía trên là hiển thị thời gian bài viết được đăng , ta có thể lấy theo dạng :

meta[property=”article:modified_time”] và thuộc tính chứa là content

Thật đơn giản phải không ?

Cách này có thể áp dụng cho việc lấy link ảnh đại diện bài viết .

<meta property=“og:image” content=“https://truyenhot.vn/wp-content/uploads/2020/11/tim-trang.jpg”>

Hoặc có thể lấy tên category, thẻ tag… mọi thứ chỉ cần nó được hiển thị trong thẻ head của website gốc đó.

Nguồn: Cacmeohay