小白自己做tumblr爬蟲全教程

  小白教程

之前在小草論壇看見有人自己通過爬蟲爬資源,但是他的教程太簡單了,對小白來說有點難度(樓主也是小白),現將摸索一天的經驗及方法傳授給大家,自行爬資源。

首先需要用的工具:

一:梯子,沒有梯子爬資源就是空話,樓主用的是自行搭建的SS,爬資源的時候開全局模式

二:Python,樓主用的是2.7.13(樓主其他版本沒有嘗試,等下附帶的工具包也是這個版本64位,請各位小白按需自己百度下載)

三:兩個爬蟲包

1:tumblr_spider-master,這個爬蟲是用來搜尋博主的好友關係及影片地址信息

2:Tumblr_Crawler-master,這個爬蟲是用來下載博主的影片與圖片,可以選擇只下圖片或者只下影片

教程:先部署安裝Python ,樓主之前說了,我只嘗試了2.7.13,其他版本沒有嘗試,這邊很簡單,都直接下一步就可以

小白自己做tumblr爬蟲全教程

注意:下面這幾點是很關鍵的,因為樓主在這裡付出了太多時間,你們或多或少都會碰到下面一些問題

第一:驗證Python是否安裝成功,這裡很多人要問,安裝完了不就安裝成功了,不是的!!!你需要配置安裝環境

你們可以用WIN+R打開命令提示符,輸python驗證下能不能打開python,如果成功會顯示如下圖

小白自己做tumblr爬蟲全教程

如果不能打開?那麼需要給予環境變量(不要問我什麼事環境變量,我也是百度搜的)

1:先確定你python安裝路徑,如我安裝目錄為C:\Python27

2:打開環境變量:右鍵計算機->屬性,進入高級,環境變量

3:找到系統變量中的path,雙擊編輯之,將python的安裝目錄(如c:Python27)加入到最後(與前一個路徑用;隔開),如果是WIN10直接添加,確定,確定,ok

4:驗證,WIN+R進入cmd,輸入python,得出我上面的圖

5:小白說看不懂:https://zhidao.baidu.com/question/937732957146468132.html(圖文解說)

第二:配置好了Python,然後我們需要安裝爬蟲所需要的模塊,我這裡準備好了,我會一起打包

1:PySocks-1.6.7

2:requests-2.11.1

3:six-1.10.0

4:xmltodict-0.10.2

5:beautifulsoup4-4.3.2

怎麼用?

首先你把這幾個包解壓出來,放到你對應的Python安裝目錄Lib子目錄下,如我的是C:\Python27\Lib

然後分別進行手動安裝,如果操作?這裡放幾個你會用到的命令用法

1: cd ..(回到上一級目錄)

2:cd Python27(打開C盤python27文件),你打開Lib文件夾也需要

3:c: (打開c盤)

這是很簡單的幾個,針對小白(樓主也是),大神不要噴我

把剛剛那幾個模塊放到Lib目錄下後,在cmd裡來到你要安裝的模塊目錄下,比如我要安裝第一個模塊PySocks-1.6.7

仔細看下我的操作(很是拙劣的方法,沒辦法,純小白)

小白自己做tumblr爬蟲全教程

來到了需要安裝的模塊目錄下輸入:python setup.py install,回車安裝,同理把我上面給到你們的5個模式都用這個方法安裝即可

到了這裡,Python的所有準備工作都已結束,下面就是爬資源的教程

這裡我開始說了有兩個爬蟲

1:tumblr_spider-master

2:Tumblr_Crawler-master

我們先用第一個tumblr_spider-master,這裡我需要和你說下,為了簡便操作,我把這個爬蟲改了文件名放在了d盤下

小白自己做tumblr爬蟲全教程

然後用命令提示符cmd打開這個目錄運行tumblr.py文件(我再網上查了很久,也沒有找到能夠雙擊打開的方法,因為雙擊就會閃退,唉),那就只能用蠢辦法了,莫噴!請看圖

小白自己做tumblr爬蟲全教程

這裡要注意:

python tumblr.py username (usename 為任意一個熱門博主的 usename)

也就是說如果如果我要找XXX博主的信息就輸入python tumblr.py XXX

這樣你會在爬蟲的目錄下得到兩個TXT文件

user.txt 是爬取XXX的用戶名信息(這裡會索引很多與該博主興趣一樣的博主信息), source.txt 是影片地址集

小白自己做tumblr爬蟲全教程

這就是信息!第一個爬蟲的使命就些了,這裡我也向各位尋一個可以批量下載影片連接的工具

因為這個爬蟲在source.txt生成了很多影片地址,但是迅雷什麼的都不了,海棠FLV能下,但是每次只能下一個,真心煩人

下面開始第二個爬蟲Tumblr_Crawler-master,這才是打殺器,它可以把你需要爬去的博主圖片和影片都直接下下來

方法和第一個一樣用命令提示符cmd打開這個目錄運行tumblr-photo-video-ripper.py文件

小白自己做tumblr爬蟲全教程

但是這裡需要你做幾個設置

1:比如你要下載XXX博主的圖片和影片文件,你需要在sites.txt文件下輸入你要爬取的博主名比如XXX

小白自己做tumblr爬蟲全教程

這裡大家要注意,如果想爬兩個用逗號分開(英文逗號),爬一個就直接填XXX,我聽說一次性爬多個博主會不好使

這裡我也建議大家最多填寫兩個就好

還有,如果我只想下載博主的圖片文件怎麼辦?或者我只想下載博主的影片文件怎麼辦?

這裡就需要改代碼了(方便小白,樓主已經分類給大家改好了文件)

你只需要把對應「只下載圖片」「只下載影片」裡面的文件覆蓋原始的tumblr-photo-video-ripper.py執行文件即可

運行執行文件後,你會在爬蟲目錄下得到大家已博主名命名的文件夾,裡面有圖片和影片

自此!教程到這裡就結束了

最後,樓主要提醒大家幾個問題

1:以上兩個爬蟲在運行的時候一定要開全局才能使用

2:安裝玩Python後要先測試下能否正常運行

3:模塊文件一定要確認安裝好,如果在運行執行文件的時候有報錯的,復制報錯的代碼百度,看下是不是缺失了什麼模塊

然後百度對應模塊按我說的方法安裝即可

這篇文章是樓主自行敲打,也借鑒了一些其他朋友的方法,如有冒犯,先說聲抱歉

有什麼問題大家可以回復我,我知道的我就回答,不知道的,大家一起學習,樓主也是剛剛開始學!

我把這裡面會用到的所有文件都打包了,大家自行下載!也可以在官網和百度搜尋到。

小白自己做tumblr爬蟲全教程

小白自己做tumblr爬蟲全教程

百度雲盤<span style=”color: rgb(160, 82, 45); font-family: Tahoma, Helvetica, SimSun, sans-serif; line-height: 24.5px; background-color: rgb(255, 255, 255);”>[hide ]</span>鏈接: http://pan.baidu.com/s/1jHS2KPg 密碼: wbcy<span style=”color: rgb(160, 82, 45); font-family: Tahoma, Helvetica, SimSun, sans-serif; line-height: 24.5px; background-color: rgb(255, 255, 255);”>[hide ]</span>

復制代碼