全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:400-708-3566

Python的爬虫框架scrapy用21行代码写一个爬虫

开发说明

开发环境:Pycharm 2017.1(目前最新)

开发框架:Scrapy 1.3.3(目前最新)

目标

爬取线报网站,并把内容保存到items.json里

页面分析


根据上图我们可以发现内容都在类为post这个div里

下面放出post的代码

<div class="post">
<!-- baidu_tc block_begin: {"action": "DELETE"} -->
<div class="date"><span>04月</span><span class="f">07日</span></div><!-- baidu_tc block_end -->
<h2><a href="http://www.abckg.com/193.html" rel="external nofollow" title="4月7日 淘金币淘里程领取京东签到" rel="bookmark" target="_blank">4月7日 淘金币淘里程领取京东签到</a><span>已结束</span></h2>
<h6>发布日期: 2017-04-07 | 分类: <a href="http://www.abckg.com/xunibi" rel="external nofollow" >虚拟币</a> | 浏览:125177
</h6><div class="intro"><p>淘金币一键领取 http://021.tw/t/ https://www.chaidu.com/App/Web/Taobao-Coin/ 【电脑端30金币】 https://taojinbi.taobao.com/inde ... auto_take=true 【手机端30金币】 http://h5.m.taobao...</p></div></div>

实现方法

1、定义items

class DemoItem(scrapy.Item):
 id = scrapy.Field()
 title = scrapy.Field()
 href = scrapy.Field()
 content = scrapy.Field()

2、新建一个爬虫名为test

# -*- coding: utf-8 -*-
import scrapy
from demo.items import DemoItem
from scrapy.http import Request
class TestSpider(scrapy.Spider):
 #定义爬虫的名字和需要爬取的网址
 name = "test"
 allowed_domains = ["www.abckg.com"]
 start_urls = ['http://www.abckg.com/']
 def parse(self, response):
 for resp in response.css('.post'):
  #实例化item
  item = DemoItem()
  #把获取到的内容保存到item内
  item['href'] = resp.css('h2 a::attr(href)').extract()
  item['title'] = resp.css('h2 a::text').extract()
  item['content'] = resp.css('.intro p::text').extract()
  yield item
  
 #下面是多页面的爬取方法
 urls = response.css('.pageinfo a::attr(href)').extract()
 for url in urls:
  yield Request(url, callback=self.parse)
 categorys = response.css('.menu li a::attr(href)').extract()
 for ct in categorys:
  yield Request(ct, callback=self.parse)

3、修改settings.py,添加以下代码

FEED_EXPORT_ENCODING = 'utf-8'

#运行

打开cmd输入

scrapy crawl test -o items.json

已知bug

如果多次运行该爬虫,不会覆盖原有的内容,而是追加数据(好像是scrapy的bug)

可拓展内容

     1、定时运行爬虫,当检查到网站更新时获取新数据并发邮件通知

     2、检测数据是否重复

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者使用python能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对的支持。


# python  # 爬虫  # scrapy  # 框架  # python爬虫框架scrapy  # Python爬虫框架Scrapy安装使用步骤  # 讲解Python的Scrapy爬虫框架使用代理进行采集的方法  # 实践Python的爬虫框架Scrapy来抓取豆瓣电影TOP250  # Python爬虫框架Scrapy实战之批量抓取招聘信息  # python爬虫框架scrapy实战之爬取京东商城进阶篇  # Python中Scrapy爬虫图片处理详解  # Python爬虫框架Scrapy常用命令总结  # Python爬虫框架Scrapy基本用法入门教程  # Python3爬虫爬取英雄联盟高清桌面壁纸功能示例【基于Scrapy框架】  # 京东  # 都在  # 发布日期  # 我们可以  # 这篇文章  # 谢谢大家  # 并把  # 一键  # 新建一个  # 上图  # 多页  # 有疑问  # abckg  # html  # rel  # www  # block_end  # http  # href  # external 


相关文章: 建站主机解析:虚拟主机配置与服务器选择指南  C#如何使用XPathNavigator高效查询XML  网站代码制作软件有哪些,如何生成自己网站的代码?  微网站制作教程,我微信里的网站怎么才能复制到浏览器里?  如何选择高效可靠的多用户建站源码资源?  猪八戒网站制作视频,开发一个猪八戒网站,大约需要多少?或者自己请程序员,需要什么程序员,多少程序员能完成?  建站主机服务器选型指南与性能优化方案解析  网页设计网站制作软件,microsoft office哪个可以创建网页?  弹幕视频网站制作教程下载,弹幕视频网站是什么意思?  网站专业制作公司有哪些,做一个公司网站要多少钱?  建站之星如何一键生成手机站?  如何用wdcp快速搭建高效网站?  如何通过山东自助建站平台快速注册域名?  建站之星如何防范黑客攻击与数据泄露?  如何快速配置高效服务器建站软件?  如何在阿里云ECS服务器部署织梦CMS网站?  香港服务器网站测试全流程:性能评估、SEO加载与移动适配优化  如何通过VPS建站无需域名直接访问?  巅云智能建站系统:可视化拖拽+多端适配+免费模板一键生成  深圳网站制作费用多少钱,读秀,深圳文献港这样的网站很多只提供网上试读,但有些人只要提供试读的文章就能全篇下载,这个是怎么弄的?  已有域名和空间如何快速搭建网站?  c# Task.ConfigureAwait(true) 在什么场景下是必须的  网站建设设计制作营销公司南阳,如何策划设计和建设网站?  专业的网站制作设计是什么,如何制作一个企业网站,建设网站的基本步骤有哪些?  网站制作话术技巧,网站推广做的好怎么话术?  如何安全更换建站之星模板并保留数据?  网站建设制作需要多少钱费用,自己做一个网站要多少钱,模板一般多少钱?  b2c电商网站制作流程,b2c水平综合的电商平台?  如何在万网自助建站中设置域名及备案?  建站IDE高效指南:快速搭建+SEO优化+自适应模板全解析  广州网站设计制作一条龙,广州巨网网络科技有限公司是干什么的?  建站之星如何快速生成多端适配网站?  黑客如何通过漏洞一步步攻陷网站服务器?  ,sp开头的版面叫什么?  图片制作网站免费软件,有没有免费的网站或软件可以将图片批量转为A4大小的pdf?  建站主机选购指南与交易推荐:核心配置解析  西安专业网站制作公司有哪些,陕西省建行官方网站?  网站视频制作书签怎么做,ie浏览器怎么将网站固定在书签工具栏?  如何在沈阳梯子盘古建站优化SEO排名与功能模块?  佛山企业网站制作公司有哪些,沟通100网上服务官网?  企业宣传片制作网站有哪些,传媒公司怎么找企业宣传片项目?  mc皮肤壁纸制作器,苹果平板怎么设置自己想要的壁纸我的世界?  宝塔新建站点报错如何解决?  招贴海报怎么做,什么是海报招贴?  实现点击下箭头变上箭头来回切换的两种方法【推荐】  建站之星上传入口如何快速找到?  logo在线制作免费网站在线制作好吗,DW网页制作时,如何在网页标题前加上logo?  历史网站制作软件,华为如何找回被删除的网站?  如何续费美橙建站之星域名及服务?  已有域名建站全流程解析:网站搭建步骤与建站工具选择 

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。