欧美阿v视频在线大全_亚洲欧美中文日韩V在线观看_www性欧美日韩欧美91_亚洲欧美日韩久久精品

主頁 > 知識庫 > python爬蟲Scrapy框架:媒體管道原理學習分析

python爬蟲Scrapy框架:媒體管道原理學習分析

熱門標簽:企業微信地圖標注 萊蕪電信外呼系統 鶴壁手機自動外呼系統違法嗎 怎么辦理400客服電話 沈陽防封電銷電話卡 B52系統電梯外呼顯示E7 地圖標注多個 銀川電話機器人電話 高德地圖標注收入咋樣

一、媒體管道

1.1、媒體管道的特性

媒體管道實現了以下特性:

  • 避免重新下載最近下載的媒體
  • 指定存儲位置(文件系統目錄,Amazon S3 bucket,谷歌云存儲bucket)

圖像管道具有一些額外的圖像處理功能:

  • 將所有下載的圖片轉換為通用格式(JPG)和模式(RGB)
  • 生成縮略圖
  • 檢查圖像的寬度/高度,進行最小尺寸過濾

1.2、媒體管道的設置

ITEM_PIPELINES = {'scrapy.pipelines.images.ImagesPipeline': 120}      啟用
FILES_STORE = '/path/to/valid/dir'		   文件管道存放位置
IMAGES_STORE = '/path/to/valid/dir'		  圖片管道存放位置
FILES_URLS_FIELD = 'field_name_for_your_files_urls'    自定義文件url字段
FILES_RESULT_FIELD = 'field_name_for_your_processed_files'   自定義結果字段
IMAGES_URLS_FIELD = 'field_name_for_your_images_urls'         自定義圖片url字段
IMAGES_RESULT_FIELD = 'field_name_for_your_processed_images'      結果字段
FILES_EXPIRES = 90   文件過期時間   默認90天
IMAGES_EXPIRES = 90    圖片過期時間   默認90天
IMAGES_THUMBS = {'small': (50, 50), 'big':(270, 270)}     縮略圖尺寸
IMAGES_MIN_HEIGHT = 110     過濾最小高度
IMAGES_MIN_WIDTH = 110      過濾最小寬度
MEDIA_ALLOW_REDIRECTS = True    是否重定向

二、ImagesPipeline類簡介

#解析settings里的配置字段
def __init__(self, store_uri, download_func=None, settings=None)
#圖片下載
def image_downloaded(self, response, request, info)
#圖片獲取   圖片大小的過濾  #縮略圖的生成
def get_images(self, response, request, info)
#轉化圖片格式
def convert_image(self, image, size=None)
#生成媒體請求  可重寫
def get_media_requests(self, item, info)
	return [Request(x) for x in item.get(self.images_urls_field, [])] #得到圖片url  變成請求  發給引擎
#此方法獲取文件名  進行改寫
def item_completed(self, results, item, info)
#文件路徑 
def file_path(self, request, response=None, info=None)
#縮略圖的存儲路徑
def thumb_path(self, request, thumb_id, response=None, info=None):

三、小案例:使用圖片管道爬取百度圖片

(當然不使用圖片管道的話也是可以爬取百度圖片的,但這還需要我們去分析網頁的代碼,還是有點麻煩,使用圖片管道就可以省去這個步驟了)

3.1、spider文件

注意:由于需要添加所有的請求頭,所以我們要重寫start_requests函數

import re
import scrapy
from ..items import DbimgItem
class DbSpider(scrapy.Spider):
    name = 'db'
    # allowed_domains = ['xxx.com']
    start_urls = ['https://image.baidu.com/search/index?tn=baiduimageipn=rct=201326592cl=2lm=-1st=-1fm=indexfr=hs=0xthttps=111110sf=1fmq=pv=ic=0nc=1z=se=1showtab=0fb=0width=height=face=0istype=2ie=utf-8word=%E7%8B%97oq=%E7%8B%97rsp=-1']
    def start_requests(self):  #因為需要添加所有的請求頭,所以我們要重寫start_requests函數
        # url = 'https://image.baidu.com/search/index?tn=baiduimageipn=rct=201326592cl=2lm=-1st=-1fm=indexfr=hs=0xthttps=111110sf=1fmq=pv=ic=0nc=1z=se=1showtab=0fb=0width=height=face=0istype=2ie=utf-8word=%E7%8B%97oq=%E7%8B%97rsp=-1'
        headers = {
            "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
            "Accept-Encoding": "gzip, deflate, br",
            "Accept-Language": "zh-CN,zh;q=0.9",
            "Cache-Control": "max-age=0",
            "Connection": "keep-alive",
            "Cookie": "BIDUPSID=4B61D634D704A324E3C7E274BF11F280; PSTM=1624157516; BAIDUID=4B61D634D704A324C7EA5BA47BA5886E:FG=1; __yjs_duid=1_f7116f04cddf75093b9236654a2d70931624173362209; BAIDUID_BFESS=101022AEE931E08A9B9A3BA623709CFE:FG=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; BDRCVFR[dG2JNJb_ajR]=mk3SLVN4HKm; cleanHistoryStatus=0; H_PS_PSSID=34099_33969_34222_31660_34226_33848_34113_34073_33607_34107_34134_34118_26350_22159; delPer=0; PSINO=6; BA_HECTOR=24ak842ka421210koq1gdtj070r; BDRCVFR[X_XKQks0S63]=mk3SLVN4HKm; userFrom=www.baidu.com; firstShowTip=1; indexPageSugList=%5B%22%E7%8B%97%22%2C%22%E7%8C%AB%E5%92%AA%22%2C%22%E5%B0%8F%E9%80%8F%E6%98%8E%22%5D; ab_sr=1.0.1_OGYwMTZiMjg5ZTNiYmUxODIxOTgyYTllZGMyMzhjODE2ZWE5OGY4YmEyZWVjOGZhOWIxM2NlM2FhZTQxMmFjODY0OWZiNzQxMjVlMWIyODVlZWFiZjY2NTQyMTZhY2NjNTM5NDNmYTFmZjgxMTlkOGYxYTUzYTIzMzA0NDE3MGNmZDhkYTBkZmJiMmJhZmFkZDNmZTM1ZmI2MWZkNzYyYQ==",
            "Host": "image.baidu.com",
            "Referer": "https://image.baidu.com/",
            "sec-ch-ua": '" Not;A Brand";v="99", "Google Chrome";v="91", "Chromium";v="91"',
            "sec-ch-ua-mobile": "?0",
            "Sec-Fetch-Dest": "document",
            "Sec-Fetch-Mode": "navigate",
            "Sec-Fetch-Site": "same-origin",
            "Sec-Fetch-User": "?1",
            "Upgrade-Insecure-Requests": "1",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36"
        }
        for url in self.start_urls:
            yield scrapy.Request(url,headers=headers,callback=self.parse,dont_filter=True)
    def parse(self, response):
        img_urls = re.findall('"thumbURL":"(.*?)"', response.text)
        # print(img_urls)
        item = DbimgItem()
        item['image_urls'] = img_urls
        yield item

3.2、items文件

import scrapy
class DbimgItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    image_urls = scrapy.Field()

3.3、settings文件

ROBOTSTXT_OBEY = False
#打開我們寫的管道
ITEM_PIPELINES = {
   # 'dbimg.pipelines.DbimgPipeline': 300,
    'dbimg.pipelines.ImgPipe': 300,
}
#圖片存放位置
IMAGES_STORE = 'D:/python test/爬蟲/scrapy6/dbimg/imgs'

3.4、pipelines文件

import os
from itemadapter import ItemAdapter
from scrapy.pipelines.images import ImagesPipeline
import settings
"""
def item_completed(self, results, item, info):
    with suppress(KeyError):
        ItemAdapter(item)[self.images_result_field] = [x for ok, x in results if ok]
    return item
"""
class ImgPipe(ImagesPipeline):
    num=0
    #重寫此函數修改獲取的圖片的名字  不然圖片名稱就是一串數字字母
    def item_completed(self, results, item, info):
        images_path = [x['path'] for ok, x in results if ok]
        #print('results: ',results)   先查看下results的數據格式,然后才能獲取到我們需要的值
        for image_path in images_path:
            os.rename(settings.IMAGES_STORE + "/" + image_path, settings.IMAGES_STORE + "/" + str(self.num) + ".jpg")
            self.num += 1

結果:

以上就是python爬蟲Scrapy框架:媒體管道原理學習分析的詳細內容,更多關于python爬蟲Scrapy框架的資料請關注腳本之家其它相關文章!

您可能感興趣的文章:
  • 關于python爬蟲應用urllib庫作用分析
  • python爬蟲Mitmproxy安裝使用學習筆記
  • Python爬蟲和反爬技術過程詳解
  • python爬蟲之Appium爬取手機App數據及模擬用戶手勢
  • 爬蟲Python驗證碼識別入門
  • Python爬蟲技術
  • Python爬蟲爬取商品失敗處理方法
  • Python獲取江蘇疫情實時數據及爬蟲分析
  • Python爬蟲之Scrapy環境搭建案例教程
  • Python爬蟲中urllib3與urllib的區別是什么
  • 教你如何利用python3爬蟲爬取漫畫島-非人哉漫畫
  • Python爬蟲分析匯總

標簽:銀川 葫蘆島 安慶 三亞 呼倫貝爾 湘西 呼倫貝爾 烏魯木齊

巨人網絡通訊聲明:本文標題《python爬蟲Scrapy框架:媒體管道原理學習分析》,本文關鍵詞  python,爬蟲,Scrapy,框架,媒體,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《python爬蟲Scrapy框架:媒體管道原理學習分析》相關的同類信息!
  • 本頁收集關于python爬蟲Scrapy框架:媒體管道原理學習分析的相關信息資訊供網民參考!
  • 推薦文章
    欧美阿v视频在线大全_亚洲欧美中文日韩V在线观看_www性欧美日韩欧美91_亚洲欧美日韩久久精品
  • <rt id="w000q"><acronym id="w000q"></acronym></rt>
  • <abbr id="w000q"></abbr>
    <rt id="w000q"></rt>
    91精品国模一区二区三区| 日本不卡视频一二三区| 国产成人8x视频一区二区| 人人人妻人人澡人人爽欧美一区| 深夜视频在线观看| 欧美中文字幕一区| 亚洲视频网在线直播| 国产91精品在线观看| 日本少妇aaa| 日韩免费高清视频| 免费看日韩a级影片| 国产ts丝袜人妖系列视频| 日韩午夜精品视频| 奇米影视在线99精品| 黄色国产在线观看| 欧美精品一区二区高清在线观看 | 欧美图片自拍偷拍| 欧美亚洲动漫制服丝袜| 一区二区三区久久久| www.黄色网| 欧美精品一级二级三级| 夜夜精品浪潮av一区二区三区| 韩国午夜理伦三级不卡影院| 在线免费观看视频| 欧美国产1区2区| 成人福利在线看| 欧美性猛交一区二区三区精品| 精品国产一区二区三区不卡 | 91免费视频网| 在线一区二区三区四区| 亚洲一级在线观看| 亚洲av无码一区二区三区观看| 色8久久精品久久久久久蜜| 亚洲靠逼com| 国模大尺度视频| 欧美一区二区三区喷汁尤物| 麻豆91在线看| 亚洲色偷偷综合亚洲av伊人| 亚洲免费观看高清| 色婷婷精品久久二区二区密 | 国产传媒日韩欧美成人| 青青草原在线免费观看| 夜夜嗨av一区二区三区网页 | 丁香婷婷深情五月亚洲| 亚洲av无码一区二区三区在线| 国产视频911| 91麻豆国产福利精品| 日韩写真欧美这视频| 国产乱人伦精品一区二区在线观看| 国产制服丝袜在线| 国产三级精品三级在线专区| 日本少妇xxx| 亚洲精品一区二区三区99| 国产成人综合在线| 欧美色网一区二区| 久久99久久久欧美国产| 国产人妻精品一区二区三区不卡| 国产精品久久久久7777按摩| 激情综合激情五月| 国产欧美精品一区aⅴ影院 | 麻豆精品在线播放| 美女三级黄色片| 亚洲高清免费观看高清完整版在线观看| 97精品视频在线观看自产线路二| 人人澡人人澡人人看| 亚洲国产综合视频在线观看| 高清国产在线观看| 一区二区三区精品视频在线| 亚洲一区二区自偷自拍| 一区二区三区在线免费播放| 天天操天天干天天操天天干| 一区二区视频免费在线观看| 自拍偷拍你懂的| 亚洲成av人影院在线观看网| 男女做暖暖视频| 麻豆国产一区二区| 欧美日韩大陆在线| 国产精品一区二区黑丝| 欧美日本一区二区| 成人国产亚洲欧美成人综合网| 91福利国产精品| 国产一区二区三区四区在线观看| 日本视频在线免费| 丝袜国产日韩另类美女| 色呦呦网站一区| 国产在线不卡一区| 欧美一级二级三级蜜桃| 91视频精品在这里| 中文字幕免费不卡| 亚洲精品在线视频免费观看| 亚洲蜜臀av乱码久久精品| 超碰人人干人人| 免费在线观看一区二区三区| 欧美视频三区在线播放| 国产91精品露脸国语对白| 精品国产免费人成在线观看| 三上悠亚 电影| 成人欧美一区二区三区小说| 亚洲午夜精品久久久久久高潮| 国产精品国产三级国产普通话三级 | 日韩av电影免费观看高清完整版 | 日韩免费看的电影| 中文字幕永久免费| 中文字幕一区二区5566日韩| 91无套直看片红桃在线观看| 蜜臀91精品一区二区三区| 欧美肥胖老妇做爰| 午夜诱惑痒痒网| 亚洲精选一二三| 一本一道久久a久久精品| 国产精品一区二区免费不卡 | 亚洲综合免费观看高清完整版在线| 中文字幕在线视频播放| 亚洲精品日产精品乱码不卡| 一区二区在线观看免费视频| 精品国产乱码久久久久久老虎| 经典一区二区三区| 日韩免费在线观看| 69xxx免费视频| 亚洲国产精品久久一线不卡| 色综合久久99| www.欧美日韩| 亚洲欧美日韩系列| 日本乱人伦一区| 99视频有精品| 亚洲黄色免费网站| 在线观看www91| 杨幂一区二区国产精品| 洋洋av久久久久久久一区| 在线观看亚洲专区| 中文字幕1区2区| 亚洲第一久久影院| 欧美男女性生活在线直播观看| 成人综合婷婷国产精品久久蜜臀| 5858s免费视频成人| 精品人妻一区二区三区日产| 亚洲国产综合人成综合网站| 欧美另类高清zo欧美| aaaa黄色片| 另类小说欧美激情| 国产亚洲精品免费| 成年人一级黄色片| 波多野结衣在线aⅴ中文字幕不卡| 欧美成人r级一区二区三区| 无码熟妇人妻av| 久草这里只有精品视频| 国产视频不卡一区| 中文字幕av免费在线观看| 波多野结衣在线aⅴ中文字幕不卡| 久久久99久久| 日韩欧美国产成人精品免费| 波波电影院一区二区三区| 一区二区三区四区不卡视频| 欧美精选在线播放| 中文字幕av网址| 精品一区二区在线免费观看| 国产人成一区二区三区影院| 欧美人禽zoz0强交| 中文字幕在线播放一区二区| 日韩成人免费电影| 国产视频911| 欧美在线观看禁18| 中国美女乱淫免费看视频| 国产精品夜夜爽| 亚洲精品大片www| 日韩一区二区麻豆国产| 99re6热在线精品视频| 99re这里都是精品| 日韩高清国产一区在线| 欧美国产激情一区二区三区蜜月 | 偷拍一区二区三区| 欧美精品一区二区三| 三级在线观看免费大全| 无码国产精品一区二区高潮| 美日韩一区二区三区| 国产精品高潮久久久久无| 欧美老肥妇做.爰bbww| 免费一级做a爰片久久毛片潮| 奇米一区二区三区av| 亚洲国产精品成人综合| 欧美日韩国产高清一区| 日韩一区二区三区四区视频| jizz一区二区| 久久99精品一区二区三区三区| 欧美一区二区三区性视频| jizzjizz日本少妇| 欧美性三三影院| 亚洲午夜激情av| 国精产品一区一区三区mba桃花| 欧美性大战久久| 美国美女黄色片| 91av免费观看| 国产精品69久久久久水密桃| 亚洲6080在线| **网站欧美大片在线观看| 日韩精品一区二区三区老鸭窝| 色婷婷av777| 91丨porny丨最新| 国产乱人伦偷精品视频不卡| 香港成人在线视频|