开发说明

开发环境:Pycharm 2017.1(目前最新)
开发框架:Scrapy 1.3.3(目前最新)
目标
爬取线报网站,并把内容保存到items.json里
页面分析
根据上图我们可以发现内容都在类为post这个div里
下面放出post的代码
<div class="post">
<!-- baidu_tc block_begin: {"action": "DELETE"} -->
<div class="date"><span>04月</span><span class="f">07日</span></div><!-- baidu_tc block_end -->
<h2><a href="http://www.abckg.com/193.html" rel="external nofollow" title="4月7日 淘金币淘里程领取京东签到" rel="bookmark" target="_blank">4月7日 淘金币淘里程领取京东签到</a><span>已结束</span></h2>
<h6>发布日期: 2017-04-07 | 分类: <a href="http://www.abckg.com/xunibi" rel="external nofollow" >虚拟币</a> | 浏览:125177
</h6><div class="intro"><p>淘金币一键领取 http://021.tw/t/ https://www.chaidu.com/App/Web/Taobao-Coin/ 【电脑端30金币】 https://taojinbi.taobao.com/inde ... auto_take=true 【手机端30金币】 http://h5.m.taobao...</p></div></div>
实现方法
1、定义items
class DemoItem(scrapy.Item): id = scrapy.Field() title = scrapy.Field() href = scrapy.Field() content = scrapy.Field()
2、新建一个爬虫名为test
# -*- coding: utf-8 -*-
import scrapy
from demo.items import DemoItem
from scrapy.http import Request
class TestSpider(scrapy.Spider):
#定义爬虫的名字和需要爬取的网址
name = "test"
allowed_domains = ["www.abckg.com"]
start_urls = ['http://www.abckg.com/']
def parse(self, response):
for resp in response.css('.post'):
#实例化item
item = DemoItem()
#把获取到的内容保存到item内
item['href'] = resp.css('h2 a::attr(href)').extract()
item['title'] = resp.css('h2 a::text').extract()
item['content'] = resp.css('.intro p::text').extract()
yield item
#下面是多页面的爬取方法
urls = response.css('.pageinfo a::attr(href)').extract()
for url in urls:
yield Request(url, callback=self.parse)
categorys = response.css('.menu li a::attr(href)').extract()
for ct in categorys:
yield Request(ct, callback=self.parse)
3、修改settings.py,添加以下代码
FEED_EXPORT_ENCODING = 'utf-8'
#运行
打开cmd输入
scrapy crawl test -o items.json
已知bug
如果多次运行该爬虫,不会覆盖原有的内容,而是追加数据(好像是scrapy的bug)
可拓展内容
1、定时运行爬虫,当检查到网站更新时获取新数据并发邮件通知
2、检测数据是否重复
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者使用python能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对的支持。
# python
# 爬虫
# scrapy
# 框架
# python爬虫框架scrapy
# Python爬虫框架Scrapy安装使用步骤
# 讲解Python的Scrapy爬虫框架使用代理进行采集的方法
# 实践Python的爬虫框架Scrapy来抓取豆瓣电影TOP250
# Python爬虫框架Scrapy实战之批量抓取招聘信息
# python爬虫框架scrapy实战之爬取京东商城进阶篇
# Python中Scrapy爬虫图片处理详解
# Python爬虫框架Scrapy常用命令总结
# Python爬虫框架Scrapy基本用法入门教程
# Python3爬虫爬取英雄联盟高清桌面壁纸功能示例【基于Scrapy框架】
# 京东
# 都在
# 发布日期
# 我们可以
# 这篇文章
# 谢谢大家
# 并把
# 一键
# 新建一个
# 上图
# 多页
# 有疑问
# abckg
# html
# rel
# www
# block_end
# http
# href
# external
相关文章:
建站主机解析:虚拟主机配置与服务器选择指南
C#如何使用XPathNavigator高效查询XML
网站代码制作软件有哪些,如何生成自己网站的代码?
微网站制作教程,我微信里的网站怎么才能复制到浏览器里?
如何选择高效可靠的多用户建站源码资源?
猪八戒网站制作视频,开发一个猪八戒网站,大约需要多少?或者自己请程序员,需要什么程序员,多少程序员能完成?
建站主机服务器选型指南与性能优化方案解析
网页设计网站制作软件,microsoft office哪个可以创建网页?
弹幕视频网站制作教程下载,弹幕视频网站是什么意思?
网站专业制作公司有哪些,做一个公司网站要多少钱?
建站之星如何一键生成手机站?
如何用wdcp快速搭建高效网站?
如何通过山东自助建站平台快速注册域名?
建站之星如何防范黑客攻击与数据泄露?
如何快速配置高效服务器建站软件?
如何在阿里云ECS服务器部署织梦CMS网站?
香港服务器网站测试全流程:性能评估、SEO加载与移动适配优化
如何通过VPS建站无需域名直接访问?
巅云智能建站系统:可视化拖拽+多端适配+免费模板一键生成
深圳网站制作费用多少钱,读秀,深圳文献港这样的网站很多只提供网上试读,但有些人只要提供试读的文章就能全篇下载,这个是怎么弄的?
已有域名和空间如何快速搭建网站?
c# Task.ConfigureAwait(true) 在什么场景下是必须的
网站建设设计制作营销公司南阳,如何策划设计和建设网站?
专业的网站制作设计是什么,如何制作一个企业网站,建设网站的基本步骤有哪些?
网站制作话术技巧,网站推广做的好怎么话术?
如何安全更换建站之星模板并保留数据?
网站建设制作需要多少钱费用,自己做一个网站要多少钱,模板一般多少钱?
b2c电商网站制作流程,b2c水平综合的电商平台?
如何在万网自助建站中设置域名及备案?
建站IDE高效指南:快速搭建+SEO优化+自适应模板全解析
广州网站设计制作一条龙,广州巨网网络科技有限公司是干什么的?
建站之星如何快速生成多端适配网站?
黑客如何通过漏洞一步步攻陷网站服务器?
,sp开头的版面叫什么?
图片制作网站免费软件,有没有免费的网站或软件可以将图片批量转为A4大小的pdf?
建站主机选购指南与交易推荐:核心配置解析
西安专业网站制作公司有哪些,陕西省建行官方网站?
网站视频制作书签怎么做,ie浏览器怎么将网站固定在书签工具栏?
如何在沈阳梯子盘古建站优化SEO排名与功能模块?
佛山企业网站制作公司有哪些,沟通100网上服务官网?
企业宣传片制作网站有哪些,传媒公司怎么找企业宣传片项目?
mc皮肤壁纸制作器,苹果平板怎么设置自己想要的壁纸我的世界?
宝塔新建站点报错如何解决?
招贴海报怎么做,什么是海报招贴?
实现点击下箭头变上箭头来回切换的两种方法【推荐】
建站之星上传入口如何快速找到?
logo在线制作免费网站在线制作好吗,DW网页制作时,如何在网页标题前加上logo?
历史网站制作软件,华为如何找回被删除的网站?
如何续费美橙建站之星域名及服务?
已有域名建站全流程解析:网站搭建步骤与建站工具选择
*请认真填写需求信息,我们会在24小时内与您取得联系。