Scrapy教學
Scrapy是什麼?
Scrapy是使用Python編寫的一個快速開源Web抓取框架,使用基於XPath選擇器來提取網頁中的數據。
歷史
Scrapy最初是在 2008年6月26日在BSD許可協議下發布,並在2015年6月發佈的一個里程碑版本1.0。
爲什麼要使用Scrapy?
它更容易構建和大規模的抓取項目;
它內置的機制被稱爲選擇器,用於從網站(網頁)上提取數據;
它異步處理請求,速度十分快;
它可以使用 自動調節機制自動調整爬行速度;
確保開發人員可訪問性;
Scrapy的特點
Scrapy是一個開源和免費使用的網絡爬蟲框架;
Scrapy生成格式導出如:JSON,CSV和XML;
Scrapy內置支持從源代碼,使用XPath或CSS表達式的選擇器來提取數據;
Scrapy基於爬蟲,允許以自動方式從網頁中提取數據;
優點
Scrapy很容易擴展,快速和功能強大;
這是一個跨平臺應用程序框架(在Windows,Linux,Mac OS和BSD)。
Scrapy請求調度和異步處理;
Scrapy附帶了一個名爲Scrapyd的內置服務,它允許使用JSON Web服務上傳項目和控制蜘蛛。
也能夠刮削任何網站,即使該網站不具有原始數據訪問API;
缺點
Scrapy只面向Python2.7+以上版本;
不同的操作系統安裝不太相同;