scrapy 抓取京东首页 - - ITeye博客

`

moxpeter

浏览: 35269 次
来自: 北京

最近访客更多访客>>

稀饭DD

Heller_zhw

huangdj

gaopeng2000123

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (30)

社区版块

存档分类

最新评论

scrapy 抓取京东首页

阅读更多

python version 2.7

开发工具：eclipse+pydev

安装好Scrapy后需要将python安装目录下的Script配置到环境中

在cmd中进入workspace执行

scrapy startproject ptspider

生成了scrapy的配置文件

在spiders路径下新建文件命名为JDSpider.py

from scrapy.spider import BaseSpider
class JDSpider(BaseSpider):
name = "360buy.com"
allowed_domains = ["360buy.com"]
start_urls = ["http://www.360buy.com/?utm_source=media&utm_medium=cpc&utm_campaign=&utm_term=semmedia_1_15"]

def parse(self, response):
filename = response.url.split("/")[-2] + '.html'
print(response.body)
open(filename, 'wb').write(response.body)

在cmd中cd到ptspider路径下执行 scrapy crawl 360buy.com

抓到京东首页的文件www.360buy.com.html

分享到：

centos中rpm安装mysql oraclexe安装配置 | 修改Greenplum最大连接数

2012-05-30 17:27
浏览 1461
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Scrapy抓取京东商品、豆瓣电影及代码分享: Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

python爬虫框架scrapy实战之爬取京东商城进阶篇: 之前的一篇文章已经讲过怎样获取链接，怎样获得参数了，详情请看python爬取京东商城普通篇，本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城，下面话不多说了，来看看详细的介绍吧。代码详解 1、首先...

京东爬虫，可抓取京东商品信息和评论: 用scrapy框架写的京东爬虫，可以抓取京东商品信息和评论,努力学习的路上

基于python框架Scrapy爬取自己的博客内容过程详解: 本文介绍用Scrapy抓取我在博客园的博客列表，只抓取博客名称、发布日期、阅读量和评论量这四个简单的字段，以求用较简单的示例说明Scrapy的最基本的用法。环境配置说明操作系统：Ubuntu 14.04.2 LTS Python：...

python 2.x; scrapy spider; 京东数据抓取；大众点评网数据抓取；豆瓣数据抓取.zip: Big Data （大数据），或称巨量资料，指的是在传统数据处理应用软件不足以处理的大或复杂的数据集。大数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言，大数据的出现促成广泛主题的新颖...

用scrapy写的京东爬虫.zip: 爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...

scrapy框架实现JD指定类目宝贝信息抓取（可供参考学习）: 京东公共资源类目下宝贝信息抓取，可作为学习python爬虫练习教程进行了解。

jdselenium.rar: 使用python'中的scrapy框架，并结合selenium模拟器，实现抓取京东商品指定关键词的商品信息，并保存到mongodb数据库中。

基于python的爬虫+数据分析实战项目.zip: - 5、使用 Scrapy_Redis 抓取京东图书的信息，有图书的大类别（book_category）、图书小类别的 url（s_href）、图书的小类别（s_cate）、图片（book_img）、书名（book_name）、作者（book_author）、出版社（book_...

爬虫+数据分析实战项目,基于python+源代码+文档说明: - 5、使用 Scrapy_Redis 抓取京东图书的信息，有图书的大类别（book_category）、图书小类别的 url（s_href）、图书的小类别（s_cate）、图片（book_img）、书名（book_name）、作者（book_author）、出版社（book_...

Global site tag (gtag.js) - Google Analytics