欧美阿v视频在线大全_亚洲欧美中文日韩V在线观看_www性欧美日韩欧美91_亚洲欧美日韩久久精品

主頁 > 知識庫 > python實現(xiàn)csdn全部博文下載并轉(zhuǎn)PDF

python實現(xiàn)csdn全部博文下載并轉(zhuǎn)PDF

熱門標簽:聊城語音外呼系統(tǒng) 海外網(wǎng)吧地圖標注注冊 南陽打電話機器人 孝感營銷電話機器人效果怎么樣 ai電銷機器人的優(yōu)勢 商家地圖標注海報 地圖標注自己和別人標注區(qū)別 打電話機器人營銷 騰訊地圖標注沒法顯示

我們學習編程,在學習的時候,會有想把有用的知識點保存下來,我們可以把知識點的內(nèi)容爬下來轉(zhuǎn)變成pdf格式,方便我們拿手機可以閑時翻看,是很方便的

先來一個單個的博文下載轉(zhuǎn)pdf格式的操作


python中將html轉(zhuǎn)化為pdf的常用工具是Wkhtmltopdf工具包,在python環(huán)境下,pdfkit是這個工具包的封裝類。如何使用pdfkit以及如何配置呢?分如下幾個步驟。

下載wkhtmltopdf安裝包,并且安裝到電腦上。
下載地址:https://wkhtmltopdf.org/downloads.html

我下的是這個版本,安裝的時候要記住路徑,之后調(diào)用要用到路徑

開發(fā)工具

  • python
  • pycharm
  • pdfkit (pip install pdfkit)
  • lxml

今天目標:博主的全部博文下載,并且轉(zhuǎn)pdf格式保存

基本思路:

1、url + headers
2、分析網(wǎng)頁: CSDN網(wǎng)頁是靜態(tài)網(wǎng)頁, 請求獲取網(wǎng)頁源代碼
3、lxml解析獲取boke_urls, author_name
4、循環(huán)遍歷,得到 boke_url
5、xpath解析獲取文件名
6、css選擇器獲取標簽文本的主體
7、構造拼接html文件
8、保存html文件
9、文件的轉(zhuǎn)換

分析網(wǎng)頁: CSDN網(wǎng)頁是靜態(tài)網(wǎng)頁, 請求獲取網(wǎng)頁源代碼
start_url =“https://i1bit.blog.csdn.net/” 為例
確定網(wǎng)址為同步加載


css選擇器獲取標簽文本的主體為代碼要點部分
css語法部分

# css選擇器獲取標簽文本的主體
        html_css = parsel.Selector(response_2)
        html_content = html_css.css('article').get()
# 構造拼接html文件
        html = \

            '''
                !DOCTYPE html>
                    html lang="en">
                    head>
                        meta charset="UTF-8">
                        title>Title/title>
                    /head>
                    body>
                        {}
                    /body>
                /html>
            '''.format(html_content)

點開博主的一篇博文打開開發(fā)者工具

# css選擇器獲取標簽文本的主體
        html_css = parsel.Selector(response_2)
        html_content = html_css.css('article').get()
# 構造拼接html文件
        html = \

            '''
                !DOCTYPE html>
                    html lang="en">
                    head>
                        meta charset="UTF-8">
                        title>Title/title>
                    /head>
                    body>
                        {}
                    /body>
                /html>
            '''.format(html_content)

文件的轉(zhuǎn)換

   config = pdfkit.configuration(wkhtmltopdf=r'這里為下載wkhtmltopdf.exe的路徑')
            pdfkit.from_file(
                第一個參數(shù)要轉(zhuǎn)變的html文件,
                第二個參數(shù)轉(zhuǎn)變后的pdf文件,
                configuration=config
            ) 
            # 上面這樣寫清楚一點,也可以直接
            pdfkit.from_file(
                第一個參數(shù)要轉(zhuǎn)變的html文件,
                第二個參數(shù)轉(zhuǎn)變后的pdf文件,
            configuration=pdfkit.configuration(wkhtmltopdf=r'這里為下載wkhtmltopdf.exe的路徑')
            )

源碼展示:

import parsel, os, pdfkit
from lxml import etree
from requests_html import HTMLSession
session = HTMLSession()



def main():
    # 1、url + headers
    start_url = input(r'請輸入csdn博主的地址:')
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
                      '(KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'
    }

    # 2、分析網(wǎng)頁: CSDN網(wǎng)頁是靜態(tài)網(wǎng)頁, 請求獲取網(wǎng)頁源代碼
    response_1 = session.get(start_url, headers=headers).text


    # 3、解析獲取boke_urls, author_name
    html_xpath_1 = etree.HTML(response_1)

    author_name = html_xpath_1.xpath(r'//*[@id="floor-user-profile_485"]/div/div[1]/div[2]/div[2]/div[1]/div[1]/text()')[0]

    boke_urls = html_xpath_1.xpath(r'//article[@class="blog-list-box"]/a/@href')


    # 4、循環(huán)遍歷,得到 boke_url
    for boke_url in boke_urls:

        # 5、請求
        response_2 = session.get(boke_url, headers=headers).text

        # 6、xpath解析獲取文件名
        html_xpath_2 = etree.HTML(response_2)
        file_name = html_xpath_2.xpath(r'//h1[@id="articleContentId"]/text()')[0]


        # 7、css選擇器獲取標簽文本的主體
        html_css = parsel.Selector(response_2)
        html_content = html_css.css('article').get()

        # 8、構造拼接html文件
        html = \

            '''
                !DOCTYPE html>
                    html lang="en">
                    head>
                        meta charset="UTF-8">
                        title>Title/title>
                    /head>
                    body>
                        {}
                    /body>
                /html>
            '''.format(html_content)

        # 9、創(chuàng)建兩個文件夾, 一個用來保存html 一個用來保存pdf文件
        if not os.path.exists(r'{}-html'.format(author_name)):
            os.mkdir(r'{}-html'.format(author_name))

        if not os.path.exists(r'{}-pdf'.format(author_name)):
            os.mkdir(r'{}-pdf'.format(author_name))

        # 10、保存html文件
        try:
            with open(r'{}-html/{}.html'.format(author_name, file_name), 'w', encoding='utf-8') as f:
                f.write(html)
        except Exception as e:
            print('文件名錯誤')

        # 11、文件的轉(zhuǎn)換
        try:
            config = pdfkit.configuration(wkhtmltopdf=r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe')
            pdfkit.from_file(
                '{}-html/{}.html'.format(author_name, file_name),
                '{}-pdf/{}.pdf'.format(author_name, file_name),
                configuration=config
            )
            a = print(r'--文件下載成功:{}.pdf'.format(file_name))

        except Exception as e:
            continue


if __name__ == '__main__':
   main()

代碼操作:

到此這篇關于python實現(xiàn)csdn全部博文下載并轉(zhuǎn)PDF的文章就介紹到這了,更多相關python 博文下載并轉(zhuǎn)PDF內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • python解析PDF程序代碼
  • Python合并多張圖片成PDF
  • Python提取PDF指定內(nèi)容并生成新文件
  • 詳解用Python把PDF轉(zhuǎn)為Word方法總結
  • python操作mysql、excel、pdf的示例
  • python pdfkit 中文亂碼問題的解決方案
  • python 三種方法提取pdf中的圖片
  • Python實現(xiàn)給PDF添加水印的方法
  • Python讀取pdf表格寫入excel的方法
  • Python 多張圖片合并成一個pdf的參考示例

標簽:南寧 撫州 六盤水 聊城 揚州 迪慶 楊凌 牡丹江

巨人網(wǎng)絡通訊聲明:本文標題《python實現(xiàn)csdn全部博文下載并轉(zhuǎn)PDF》,本文關鍵詞  python,實現(xiàn),csdn,全部,博文,;如發(fā)現(xiàn)本文內(nèi)容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《python實現(xiàn)csdn全部博文下載并轉(zhuǎn)PDF》相關的同類信息!
  • 本頁收集關于python實現(xiàn)csdn全部博文下載并轉(zhuǎn)PDF的相關信息資訊供網(wǎng)民參考!
  • 推薦文章
    欧美阿v视频在线大全_亚洲欧美中文日韩V在线观看_www性欧美日韩欧美91_亚洲欧美日韩久久精品
  • <rt id="w000q"><acronym id="w000q"></acronym></rt>
  • <abbr id="w000q"></abbr>
    <rt id="w000q"></rt>
    成人黄色软件下载| 手机看片国产日韩| 欧美丝袜第三区| 最新日韩在线视频| 国产精品综合网| 日本一级免费视频| 日韩精品一区二区三区在线播放 | 4438x成人网最大色成网站| 一区二区三区久久| 成人av动漫网站| 久久久久久久久毛片| 中文字幕日本乱码精品影院| 丰满白嫩尤物一区二区| 波多野结衣久久久久| 中文字幕高清一区| 成人黄色大片在线观看| 草视频在线观看| 亚洲免费在线播放| 91福利视频免费观看| 欧美日韩一区二区三区在线| 亚洲国产精品一区二区久久 | 亚洲天堂一级片| 欧美一区二区三区系列电影| 亚洲第一二三四区| 日韩少妇一区二区| 欧美一级黄色录像| 麻豆久久久久久久| 手机看片日韩av| 国产精品美女久久久久高潮| heyzo一本久久综合| 欧美性大战久久久| 婷婷激情综合网| 久久美女免费视频| 中文乱码免费一区二区| av欧美精品.com| 欧美日韩国产综合视频在线观看| 天堂午夜影视日韩欧美一区二区| 亚洲欧美色图视频| 久久新电视剧免费观看| 国产91在线看| 欧美日韩国产小视频在线观看| 日韩高清中文字幕一区| 午夜精品福利一区二区蜜股av| 97香蕉碰碰人妻国产欧美| 久久综合精品国产一区二区三区| 高清国产一区二区| 欧美三级午夜理伦三级中视频| 日本亚洲三级在线| 乱老熟女一区二区三区| 亚洲激情自拍视频| 少妇精品一区二区三区| 国产精品久久免费看| 韩国一区二区三区四区| 精品久久人人做人人爽| 成人免费看黄yyy456| 69久久99精品久久久久婷婷 | 成人一道本在线| 欧美日韩一级二级三级| 久久99精品国产麻豆婷婷| 色呦呦日韩精品| 日韩成人精品视频| 日韩一级片大全| 视频在线观看一区| 中国一级片在线观看| 调教+趴+乳夹+国产+精品| 男女全黄做爰文章| 亚洲成人av福利| 欧美h片在线观看| 日本特黄久久久高潮| 亚洲欧美小视频| 青青草国产成人av片免费| 亚洲欧洲综合网| 偷拍与自拍一区| 色综合久久88色综合天天6| 免费观看91视频大全| 色偷偷成人一区二区三区91| 美女任你摸久久| 欧美色综合网站| 国产高清亚洲一区| 日韩欧美在线网站| 91麻豆国产在线观看| 久久久久9999亚洲精品| 蜜臀av粉嫩av懂色av| 亚洲欧美怡红院| 人妻精品久久久久中文| 性做久久久久久久免费看| 粉嫩av性色av蜜臀av网站| 美日韩一区二区三区| 欧美三级乱人伦电影| 国产+成+人+亚洲欧洲自线| 日韩一级大片在线观看| 又黄又爽又色的视频| 国产日产欧美一区| 欧美高清性xxxx| 亚洲图片一区二区| 婷婷色中文字幕| 国产成人福利片| xvideos.蜜桃一区二区| 超碰男人的天堂| 亚洲一区二区在线免费观看视频| 暗呦丨小u女国产精品| 精品一区二区三区免费| 91精品国产综合久久精品麻豆 | 天天影视色香欲综合网老头| 色久优优欧美色久优优| 国产v日产∨综合v精品视频| 久久一区二区三区国产精品| 欧美无人区码suv| 亚洲成人精品在线观看| 欧美性色欧美a在线播放| 豆国产96在线|亚洲| 国产香蕉久久精品综合网| 国产肥白大熟妇bbbb视频| 日本欧美韩国一区三区| 69堂精品视频| 成人在线视频免费播放| 欧美成人伊人久久综合网| 国产精品成人99一区无码| 依依成人综合视频| 国产大片免费看| 国产福利一区二区三区视频| 国产无遮挡一区二区三区毛片日本| 国产美女精品久久| 蜜臀va亚洲va欧美va天堂| 91精品综合久久久久久| av av在线| 天天综合色天天综合色h| 制服.丝袜.亚洲.另类.中文| 国产黑丝在线观看| 婷婷六月综合网| 日韩欧美一区二区久久婷婷| 少妇光屁股影院| 精品系列免费在线观看| 国产亲近乱来精品视频| 韩国女同性做爰三级| 另类人妖一区二区av| 26uuu亚洲婷婷狠狠天堂| 午夜时刻免费入口| 国产资源在线一区| 国产欧美视频一区二区| 91高清免费观看| 91小视频免费看| 亚洲午夜激情网站| 欧美一级午夜免费电影| 国产成人av一区二区三区不卡| 蜜桃视频一区二区三区在线观看| 精品福利av导航| 国产主播av在线| 成人av在线电影| 一区2区3区在线看| 欧美一区二区三区日韩| 黄免费在线观看| 波多野结衣中文一区| 伊人夜夜躁av伊人久久| 欧美高清视频不卡网| 一级中文字幕一区二区| 欧美三电影在线| 最新中文字幕视频| 国产麻豆精品theporn| 国产精品国产三级国产普通话蜜臀| 91极品美女在线| 欧美xxxxx精品| 极品尤物av久久免费看| 亚洲欧洲av一区二区三区久久| 欧美日韩一区中文字幕| 日韩av在线看免费观看| 丁香亚洲综合激情啪啪综合| 亚洲一二三区在线观看| 欧美成人乱码一区二区三区| 美国美女黄色片| 91在线观看一区二区| 日本中文一区二区三区| 欧美国产欧美综合| 欧美日韩午夜影院| 国产伦理片在线观看| 成人av资源在线| 免费成人你懂的| 成人欧美一区二区三区小说 | 制服.丝袜.亚洲.中文.综合| 一级二级黄色片| 男插女视频网站| 久久av资源站| 亚洲激情av在线| www激情久久| 在线日韩av片| 熟女少妇内射日韩亚洲| 91一区二区在线| 久久草av在线| 一区二区三区自拍| 精品国产自在久精品国产| 色哟哟一区二区三区| 亚洲天堂久久新| 91原创在线视频| 久久激情五月婷婷| 一区二区三区四区在线| 久久精品一区二区| 制服丝袜成人动漫| 色综合天天综合网天天狠天天| 老司机福利av| 亚洲午夜精品在线观看|