用十分钟写一个爬虫——记一次半次元图片的抓取

2016-09-04 00:44

本文发自 http://www.binss.me/blog/write-a-spider-in-ten-minutes-to-fetch-the-images/，转载请注明出处。

今晚无聊刷微博，无意中发现一张鹿岛的cos十分传神，经过强大的搜图引擎，获知其在半次元有完整套图。

老司机先开一波车：http://bcy.net/coser/detail/16016/417762

作为一名老司机，对于喜爱的套图，当然是down下来珍藏，然而很显然这种站不会有类似“一键下载”的按钮，于是写个脚本把它搞下来。当然为了一个这么简单的需求，我们当然不能花太多时间去从头到尾搞只爬虫，于是我选择了pyspider。由于先前有学习过这个框架，所以飞速地撸了个脚本把图都抓下来了。

思路

访问抓取页，如 http://bcy.net/coser/detail/16016/417762
通过”审查元素“发现，网页上的图片链接，如

http://img9.bcyimg.com/coser/16016/post/177ne/b43cda60c0c711e5b0892d9b80c834ad.jpg/w650

是缩放过的，完整图片为

http://img9.bcyimg.com/coser/16016/post/177ne/b43cda60c0c711e5b0892d9b80c834ad.jpg

即去掉尾部的w650即可。写个正则进行匹配。
开启pyspider的css selector helper，在web页面选中图片，得到css选择器 .detail_clickable。

同理得到character和coser的选择器为 .post__role-headline > a 和 .maxw700 > h3 > a
正则匹配图片url得到原图url和后缀名，拼接character和coser得到文件夹名
根据文件夹名，如 优歌yuuka - 鹿岛 创建下载文件夹，然后根据url将所有原图下载到该文件夹内
顺手伪装下headers，比如User-Agent、Referer之类的

完整脚本

# !/usr/bin/env python
# -*- coding: utf-8 -*-
#
# FileName:      bcy.py
# Author:        binss
# Create:        2016-09-03 22:50:32
# Description:   No Description
#

import re
import urllib2
import os
from pyspider.libs.base_handler import *


DOWNLOAD_DIR = '/home/binss/pyspider/download'

fetch_url = 'http://bcy.net/coser/detail/16016/417762'


# e.g. http://img9.bcyimg.com/coser/16016/post/177ne/b43cda60c0c711e5b0892d9b80c834ad.jpg/w650
def download(url, folder, index):
    match = re.search('(.*\.(.*))\/', url)
    if match:
        url = match.group(1)
        print 'downloading {}'.format(url)
        image = urllib2.urlopen(url).read()
        path = os.path.join(DOWNLOAD_DIR, folder)
        if not os.path.exists(path):
            os.makedirs(path)
        filename = os.path.join(path, '{}.{}'.format(index, match.group(2)))
        with open(filename, 'w+') as f:
            f.write(image)


class Handler(BaseHandler):
    crawl_config = {
        'headers': {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',
            'Referer': fetch_url,
            'Accept-Language': 'zh-CN,zh;q=0.8',
            'Accept': 'image/webp,image/*,*/*;q=0.8',
            'Accept-Encoding': 'gzip, deflate, sdch',
        }
    }

    def on_start(self):
        self.crawl(fetch_url, callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        image_urls = []
        character = response.doc('.post__role-headline > a').text()
        coser = response.doc('.maxw700 > h3 > a').text()
        folder = u'{} - {}'.format(coser, character)
        index = 1
        for x in response.doc('.detail_clickable').items():
            image_urls.append(x.attr.src)
            download(x.attr.src, folder, index)
            index += 1

        return {
            'character': character,
            'coser': coser,
            'total': index - 1,
            'debug': image_urls,
        }