Scrapy 2.5 documentation?

Scrapy 是一種快速的高級 web crawlingweb scraping 框架,用于對網站進行爬網并從其頁面提取結構化數據。它可以用于廣泛的用途,從數據挖掘到監控和自動化測試。

得到幫助?

有麻煩嗎?我們想幫忙!

  • 試試 FAQ --它有一些常見問題的答案。

  • 尋找具體信息?試試 索引模塊索引 .

  • 使用scrapy標簽`_在StackOverflow中提問或搜索問題。

  • 在“Scrapy subreddit”中詢問或搜索問題。

  • 搜索`scrapy-users郵件列表`_的檔案問題。

  • 在`#scrapy IRC channel`_ 中提問,

  • 在我們的“問題跟蹤器”中用Scrapy報告錯誤。

第一步?

Scrapy一目了然

了解 Scrapy 是什么以及它如何幫助你。

安裝指南

在你的電腦上安裝Scrapy。

Scrapy 教程

寫你的第一個 Scrapy 項目。

實例

通過玩預先制作的零碎項目了解更多信息。

基本概念?

命令行工具

了解用于管理零碎項目的命令行工具。

蜘蛛

編寫規則以對網站進行爬網。

選擇器

使用xpath從網頁中提取數據。

Scrapy shell

在交互式環境中測試提取代碼。

項目

定義要擦除的數據。

項目加載器

用提取的數據填充項目。

項目管道

后處理和存儲您的抓取數據。

Feed 導出

使用不同的格式和存儲輸出抓取的數據。

請求和響應

了解用于表示HTTP請求和響應的類。

鏈接提取器

方便的類從頁面中提取要跟蹤的鏈接。

設置

了解如何配置Scrapy并查看所有 available settings .

例外情況

查看所有可用的異常及其含義。

內置服務?

登錄

了解如何在Scrapy上使用Python的內置日志記錄。

統計數據集合

收集關于您的 Scrape 爬蟲的統計數據。

發送電子郵件

發生某些事件時發送電子郵件通知。

遠程登錄控制臺

使用內置的python控制臺檢查正在運行的爬蟲程序。

Web服務

使用Web服務監視和控制爬蟲程序。

解決具體問題?

常見問題

獲取最常見問題的答案。

調試spiders

學習如何調試你的廢蜘蛛的常見問題。

蜘蛛合約

學習如何使用聯系來測試你的蜘蛛。

常用做法

熟悉一些 Scrapy 慣例。

寬爬行

調整Scrapy以并行地爬行許多域。

使用瀏覽器的開發人員工具進行抓取

了解如何使用瀏覽器的開發人員工具。

選擇動態加載的內容

讀取動態加載的網頁數據。

調試內存泄漏

學習如何發現并消除爬行器中的內存泄漏。

下載和處理文件和圖像

下載與抓取項目相關的文件和/或圖像。

部署蜘蛛

部署 Scrapy 蜘蛛并在遠程服務器中運行它們。

AutoThrottle 擴展

根據負載動態調整爬行速率。

標桿管理

檢查Scrapy在硬件上的性能。

作業:暫停和恢復爬行

學習如何暫停和恢復大型蜘蛛的爬行。

協同程序

使用 coroutine syntax .

asyncio

使用 asyncioasyncio -動力庫。

擴展Scrapy?

體系結構概述

了解 Scrapy 構造。

下載器中間件

自定義請求和下載頁面的方式。

蜘蛛中間件

自定義蜘蛛的輸入和輸出。

擴展

使用自定義功能擴展scrapy

核心API

在擴展和中間軟件上使用它來擴展 Scrapy 功能

信號

查看所有可用信號以及如何使用它們。

調度程序

了解調度程序組件。

條目導出器

快速將已刪除的項目導出到文件(XML,CSV等)。

其余所有?

發行說明

看看最近的Scrapy版本有什么變化。

為 Scrapy 貢獻

學習如何為 Scrapy 項目做出貢獻。

版本控制和API穩定性

了解Scrapy版本和API穩定性。