python version 2.7
开发工具:eclipse+pydev
安装好Scrapy后需要将python安装目录下的Script配置到环境中
在cmd中进入workspace执行
scrapy startproject ptspider
生成了scrapy的配置文件
在spiders路径下新建文件命名为JDSpider.py
from scrapy.spider import BaseSpider
class JDSpider(BaseSpider):
name = "360buy.com"
allowed_domains = ["360buy.com"]
start_urls = ["http://www.360buy.com/?utm_source=media&utm_medium=cpc&utm_campaign=&utm_term=semmedia_1_15"]
def parse(self, response):
filename = response.url.split("/")[-2] + '.html'
print(response.body)
open(filename, 'wb').write(response.body)
在cmd中cd到ptspider路径下执行 scrapy crawl 360buy.com
抓到京东首页的文件www.360buy.com.html
分享到:
相关推荐
Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
之前的一篇文章已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇,本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城,下面话不多说了,来看看详细的介绍吧。 代码详解 1、首先...
用scrapy框架写的京东爬虫,可以抓取京东商品信息和评论,努力学习的路上
本文介绍用Scrapy抓取我在博客园的博客列表,只抓取博客名称、发布日期、阅读量和评论量这四个简单的字段,以求用较简单的示例说明Scrapy的最基本的用法。 环境配置说明 操作系统:Ubuntu 14.04.2 LTS Python:...
Big Data (大数据),或称巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集。大数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,大数据的出现促成广泛主题的新颖...
爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...
京东公共资源类目下宝贝信息抓取,可作为学习python爬虫练习教程进行了解。
使用python'中的scrapy框架,并结合selenium模拟器,实现抓取京东商品指定关键词的商品信息,并保存到mongodb数据库中。
- 5、使用 Scrapy_Redis 抓取京东图书的信息,有图书的大类别(book_category)、图书小类别的 url(s_href)、图书的小类别(s_cate)、图片(book_img)、书名(book_name)、作者(book_author)、出版社(book_...
- 5、使用 Scrapy_Redis 抓取京东图书的信息,有图书的大类别(book_category)、图书小类别的 url(s_href)、图书的小类别(s_cate)、图片(book_img)、书名(book_name)、作者(book_author)、出版社(book_...