Python sử dụng Playwright với proxy
Playwright là một framework tự động hóa web do Microsoft cung cấp, tương tự Selenium. Chúng ta có thể dùng các framework tự động hóa web này để scrape (trích xuất) dữ liệu từ một website. Đôi khi chúng ta phải dùng proxy để vượt qua việc bị website chặn.
Playwright là gì?
Playwright là một framework kiểm thử tự động (automation) web do Microsoft cung cấp. Nó tương tự Selenium.
Chúng ta có thể dùng các framework tự động hóa web này để scrape (trích xuất) dữ liệu từ một website. Đôi khi, chúng ta phải dùng proxy để vượt qua việc bị website chặn. Đoạn code dưới đây cho thấy cách dùng proxy với Playwright.
Sử dụng Proxy với Playwright
Truyền cấu hình proxy (địa chỉ server, tên đăng nhập, và mật khẩu) trực tiếp vào lệnh launch():
from playwright.sync_api import sync_playwright
with sync_playwright() as p:
browser = p.webkit.launch(
headless=False,
proxy={
"server": "server-address:port",
"username": "My_user",
"password": "My_password",
},
)
context = browser.new_context()
page = context.new_page()
page.goto("https://whoer.net")
page.screenshot(path="whoer.png")
browser.close()
- Thay
server-address:portbằng host và port của proxy server của bạn. - Thay
My_uservàMy_passwordbằng thông tin đăng nhập proxy của bạn. - Ảnh chụp màn hình lưu dưới dạng
whoer.pnggiúp bạn xác minh proxy IP đang được sử dụng đúng.
Cài đặt Playwright
Nếu bạn chưa cài Playwright:
pip install playwright
playwright install
Nếu có câu hỏi nào, đừng ngần ngại liên hệ với tôi.
Chúc may mắn!
Xem thêm:
- Proxy tốt nhất cho Web Scraping — chọn nhà cung cấp proxy phù hợp