scrapy爬取糗事百科段子


scrpy基础

今天是复习前几天搞得scrapy爬虫框架学习
好长时间没有在搞了,属实是有一些东西给忘了
今天特地给复习一下,这是房价前所听课所作的笔记

创建目录 scrapy startproject {firstblood}文件名
在spider目录下创建一个爬虫源文件scrapy genspider {first} {www.XXX.com}这个可以是一个随便的网址,后续文件中是可以改的
                                            {first}创建的爬虫源文件的名称
scrapy crawl {first}创建的爬虫源文件名称
ROBOTSTXT_OBEY = False要把这个设置成False要不然是得不到所想要的response响应信息

scrapy crawl first --nolog只运行代爬虫源文件的输出信息

但是可以通过添加到setting.py
#显示指定的类型的日志信息
LOG_LEVEL='ERROR'
这样就可以把你爬虫源文件中的错误信息一同给报出来 这个你是用
scrapy crawl first --nolog
所不能够实现的
所以还是建议使用添加LOG_LEVEL

针对于一些导入item管道类要进行一下操作

标记为 源根

下面是爬取糗事百科的段子的qiubai.py的代码,运行要使用scrapy crawl qiubai

import scrapy


class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):#数据解析的方法应该卸载这个里边
        #解析 作者的名称和段子内容
        print(response)
        div_list=response.xpath('/html/body/div[1]/div/div[2]/div')#跟etree是不一样的两个方法 但是用法是几乎一样的
        for div in div_list:
            # auther=div.xpath('./div[1]/a[2]/h2/text()')[0].extract()#这中间只有一个列表元素那么就是用[0]给他拿出来之后再进行读取
            auther = div.xpath('./div[1]/a[2]/h2/text()').extract_first()#要想使用这个extract_first()那么你必须要保证你这个xpath对应的数据只有一个之这样才能用这个给这第0个给读取出来
            #.extact()可以将Selector中的data中的数据给读取出来
            content=div.xpath('./a[1]/div/span//text()').extract()#文本之中要还是有子标签那就要使用双斜杠,要不然只能爬取第一个数据
            #如果这个中有很多元素,那么用.extract会返回一个列表那么就可以通过转换成字符串
            content=''.join(content)
            #这个xpath返回的一定是一个列表,列表类型是一个Selector对象,那么我们应该获取data中的数据
            print(auther,content)

中间的xpath数据解析和那个etree中的xpath不是一个东西但是用法是一样的,要注意区别和是使用
主要区别就是etree中的xpath返回的是一个字符串,而scrapy中的xpath返回的是一个Selector类型,需要使用.extact()将其中的元素给读取出来
由于结果太长,我就只粘贴一组结果

<200 https://www.qiushibaike.com/text/>

乡村农民小哥哥



早上10点登桂林尧山,观景平台上,一处卖岩蜜的,没错就是菜市场大家见过的,和石头一样的蜂蜜结晶,需要一把锋利的刀才能砍下来卖的,开始觉得新奇,买了20
块钱一包,吃起来味道也有蜂蜜味道,不由感叹这桂林尧山产这些独特的风味小吃,风景优美,美食遍地,美女如林,真是一大美事!下午3点,开始拉肚子,网络一查
,所谓岩蜜都是糖和各种料制作的假货,新闻早就曝光过……在这里我就想问一下,那个锋利的砍岩石刀在哪可以买得到?!

持久化存储

基于终端命令

接下来进行持久化存储 这一共分为两种一个是通过终端指令

scrapy crawl qiubai -o ./qiubai.csv

这个文件名为qiubai 存储的文件名为 qiubai.csv 而且文件类型只能是特定类型,不能是txt类型

基于管道1

**items.py **定义相关的属性

class QiubaiproItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    author = scrapy.Field()
    content = scrapy.Field()
    pass

pipelines.py 专门用来处理item对象的

在管道类中的process_item

class QiubaiproPipeline:
    fp=None
    def open_spider(self, spider):
        print("开始爬虫")
        self.fp=open('./qiubai.txt','w',encoding='utf-8')

    #专门用来处理item类型对象
    def process_item(self, item, spider):
        #该方法可以接受爬虫文件提交过来的item对象
    	#该方法没接收到一个item就会被调用一次
        author=item["author"]
        content=item["content"]
        self.fp.write(author+':'+content+'\n')
        return item#item #就会传递给下一个即将执行的管道类
    def close_spider(self,spider):
        self.fp.close()
        print('结束爬虫')

settings.py在配置文件中开启管道(默认情况下是不开启管道的)

ITEM_PIPELINES = {
   'qiubaipro.pipelines.QiubaiproPipeline': 300,
}
'''开启管道   300表示的是优先级,数值越小的优先级越高'''

qiubai.py

import scrapy
from qiubaipro.items import QiubaiproItem

class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.qiushibaike.com/text/']

    # def parse(self, response):#数据解析的方法应该卸载这个里边
    #     #解析 作者的名称和段子内容
    #     print(response)
    #     all_data=[]
    #     div_list=response.xpath('/html/body/div[1]/div/div[2]/div')#跟etree是不一样的两个方法 但是用法是几乎一样的
    #     for div in div_list:
    #         # auther=div.xpath('./div[1]/a[2]/h2/text()')[0].extract()#这中间只有一个列表元素那么就是用[0]给他拿出来之后再进行读取
    #         author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()#要想使用这个extract_first()那么你必须要保证你这个xpath对应的数据只有一个之这样才能用这个给这第0个给读取出来
    #         #.extact()可以将Selector中的data中的数据给读取出来
    #         content=div.xpath('./a[1]/div/span//text()').extract()#文本之中要还是有子标签那就要使用双斜杠,要不然只能爬取第一个数据
    #         #如果这个中有很多元素,那么用.extract会返回一个列表那么就可以通过转换成字符串
    #         content=''.join(content)
    #         #这个xpath返回的一定是一个列表,列表类型是一个Selector对象,那么我们应该获取data中的数据
    #         print(author,content)
    #
    #         dic={
    #             'auther':author,
    #             'content':content
    #         }
    #         all_data.append(dic)
    #         ##持久化存储 基于终端命令
    #     return all_data
    def parse(self, response):#数据解析的方法应该卸载这个里边
        #解析 作者的名称和段子内容
        print(response)
        all_data=[]
        div_list=response.xpath('/html/body/div[1]/div/div[2]/div')#跟etree是不一样的两个方法 但是用法是几乎一样的
        for div in div_list:
            # auther=div.xpath('./div[1]/a[2]/h2/text()')[0].extract()#这中间只有一个列表元素那么就是用[0]给他拿出来之后再进行读取
            author = div.xpath('./div[1]/a[2]/h2/text()|./div[1]/span/h2/text()').extract_first()#要想使用这个extract_first()那么你必须要保证你这个xpath对应的数据只有一个之这样才能用这个给这第0个给读取出来
            # 加了一组xpath解析就是为了找到匿名用户的信息
            #.extact()可以将Selector中的data中的数据给读取出来
            content=div.xpath('./a[1]/div/span//text()').extract()#文本之中要还是有子标签那就要使用双斜杠,要不然只能爬取第一个数据
            #如果这个中有很多元素,那么用.extract会返回一个列表那么就可以通过转换成字符串
            content=''.join(content)
            #这个xpath返回的一定是一个列表,列表类型是一个Selector对象,那么我们应该获取data中的数据
            print(author,content)

            item= QiubaiproItem()
            item["author"]=author
            item["content"]=content

            yield item#将item提交给了管道

基于管道2

面试题:将爬虫爬取下来的数据,一份数据存到本地,一份数据存到数据库

保存到数据库和本地

pipelines.py

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter
import sqlite3

class QiubaiproPipeline:
    fp=None
    def open_spider(self, spider):
        print("开始爬虫")
        self.fp=open('./qiubai.txt','w')

    #专门用来处理item类型对象
    #该方法可以接受爬虫文件提交过来的item对象
    #该方法没接收到一个item就会被调用一次
    def process_item(self, item, spider):
        author=item["author"]
        content=item["content"]
        self.fp.write(author+':'+content+'\n')
        return item#item 就会传递给下一个即将执行的管道类
    def close_spider(self,spider):
        self.fp.close()
        print('结束爬虫')
############################################
#管道文件中的一个管道类对应的数据存储到一个平台或者载体之中
class mysqlPipeline:
    def open_spider(self, spider):
        print("开始爬虫")
        self.conn=sqlite3.connect("qiubai.db")
        cur=self.conn.cursor()
        cur.execute('''create table if not exists qiubai(author primary key,content)''')
    def process_item(self,item,spider):
        author = item["author"]
        content = item["content"]
        self.cursor=self.conn.cursor()
        try:
            self.cursor.execute('''insert into qiubai values(?,?)''',(author,content))
            print(item["author"],"添加到数据库成功")
            self.conn.commit()
        except Exception as e :
            print(e)
            self.conn.rollback()#数据回滚
        return item
    def close_spider(self,spider):
        self.cursor.close()
        self.conn.close()
# 爬虫文件提交的item类型的对象,最终会提交哪一个管道类:
# 先执行的管道类

settings.py

ITEM_PIPELINES = {
   'qiubaipro.pipelines.QiubaiproPipeline': 300,
   'qiubaipro.pipelines.mysqlPipeline': 301,
}
'''开启管道   300表示的是优先级,数值越小的优先级越高'''
scrapy 持久化存储
   --基于终端命令:
        -要求: 只可以将parse方法 的返回值存储到本地的文本文件中,不能存储到数据库中
        -注意: 持久化存储对应的文本文件的类型只可以为:'json','jsonlines','jl','csv','xml','marshal','pickle'
        -指令: scrapy crawl XXX -o filePath
        -好处: 他非常的高效便捷
        -缺点: 局限性比较强(数据只能存储到指定后缀的我呢本文件中)
   --基于管道:
        -编码流程:
            - 数据解析
            - 在item类当中定义相关属性 (在item中)
            - 将解析的数据封装存储到item类型的对象中
            - 将item类型的对象提交给管道进行持久化存储的操作
            - 在管道类中的process_item中将其接受到的item对象中存储的数据进行持久化存储操作   (在pipelines里边)
            - 在配置文件中开启管道
          --过程:

运行程序

scrapy crawl qiubai

文章作者: 毛豆不逗比
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 毛豆不逗比 !
  目录
{% include '_third-party/exturl.swig' %} {% include '_third-party/bookmark.swig' %} {% include '_third-party/copy-code.swig' %} + {% include '_custom/custom.swig' %}