my notes - crawler

scrapy

Anonymous (anonymous@undisclosed.example.com) — 2022-10-29T16:15:47+00:00

Scrapy refer: * code examples: * git clone https://code.google.com/p/scrapy-tutorial/ * svn checkout http://scrapy-spider.googlecode.com/svn/trunk/ scrapy-spider-read-only * svn checkout http://kateglo-crawler.googlecode.com/svn/trunk/ kateglo-crawler-read-only

scrapyarchitecturecode

Anonymous (anonymous@undisclosed.example.com) — 2022-10-29T16:15:47+00:00

Scrapy Architecture Code Scrapy commands Overview about scrapy commands * Scrapy command format scrapy --help Scrapy 1.0.3 - project: templatedownload Usage: scrapy [options] [args] Available commands: bench Run quick benchmark test check Check spider contracts commands crawl Run a spider edit Edit spider fetch Fetch a URL using the Scrapy downloader genspider Generate new spider using pre-defined templates list …

scrapyexamples

Anonymous (anonymous@undisclosed.example.com) — 2022-10-29T16:15:47+00:00

Scrapy Examples Download entire site with scrapy from scrapy.selector import HtmlXPathSelector from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor as sle class BabySpider(CrawlSpider): name = "baby" allowed_domains = ["babies.vn"] start_urls = [ "http://shop.babies.vn/index.php" ] rules = [ Rule(sle(allow=("/*.html")), callback='parse_template'), ] def parse_template(self, response)…