快捷搜索:
来自 计算机编程 2019-08-03 17:45 的文章
当前位置: 67677新澳门手机版 > 计算机编程 > 正文

爬取简书专题,Python爬取笑话存储在mysql里

  首先确定要爬取的笑话网站,我是直接百度笑话搜到的第一个网站,网址是,点进去发现网页构建在我看来还是比较复杂的,由于还是初学者,首先得先找到网页资源集中所在,找出其中的规律,然后才好有针对性的爬取资源。对于这个网址,我发现在左边侧栏有一个笑话大全的分类框。这个看起来基本上包括了全站的文字笑话了。在这个分类框下有许多小的分类,点进小的分类后是此分类下的所有笑话网页列表,每个网页里面包含一些笑话,我们最终是要把这一个一个网页里的笑话爬取存储起来。


在简书中有很多主题频道,里面有大量优秀的文章,我想收集这些文章用于提取对我有用的东西;

无疑爬虫是一个好的选择,我选用了python的一个爬虫库scrapy,它的官方文档就是很好的教程:http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

  爬取思路:爬取,得到一个html页面,分析此html页面,获得分类框里的所有分类的url地址,遍历每一个分类的url,爬取分类url的html网页,分析分类url网页,得到全部笑话网页列表,遍历笑话网页列表url,得到最终的包含一个一个笑话的html页面,获取笑话,存储到mysql数据库。

  爬取我用的是Google浏览器,在这个网站下按F12就可以看到网页源代码了,此时要分析这个笑话大全的分类框的结构,以便使用python正则表达式获取到我们想要的信息。

准备工作


scrapy安装

pip install Scrapy

我遇到的问题是,编译时候stdarg.h找不到;于是查看报问题的头文件目录,把stdarg.h拷贝进去就OK了,这个花了我好长时间。。。

因为scrapy依赖于twisted,所以有人安装scrapy可能会提示缺少twisted,介绍如下:

从https://pypi.python.org/pypi/Twisted/#downloads下载离线文件,然后执行一下安装。

tar jxvf Twisted-xxx.tar.bz2

cd Twisted-xxx

python setup.py install

图片 1

mysql

抓取到的数据默认是用json存储,因为不同类型的数据混合存储,解析和查询过于繁琐,所以我选择数据库;至于没有用mongodb,是因为我机子上本来就装有mysql,而且自己学习研究用不到mongodb的一些优点。

mysql数据库是分服务器(server),客户端(workbench),python的接口链接器(mysql-connector);这些都可以从官方找到,参见 https://dev.mysql.com/downloads/

connector可以直接用pip安装,这里有个好处就是不用额外操心环境变量的事儿。

pip install mysql-connector

对于connector的使用,参见官方说明文档:

https://dev.mysql.com/doc/connector-python/en/

图片 2

一个简单的框架


创建一个scrapy工程

scrapy startproject HelloScrapy

启动一个工程

scrapy crawl demo

还可以用shell启动,这个好处是你可以介入每一个执行命令

scrapy shell ''

需要注意的是,网站一般会有反爬虫机制,抓取会返回403错误,所以记得把user-agent改了:

settings.py

USER_AGENT = 'HelloWoWo'

开启爬虫

你需要在spider目录下建立一个scrapy.Spider的子类,定义它的名称(name, 就是启动工程时指定的名称),允许的域名(allowed_domains),起始的爬取链接(start_urls);

然后定义parse函数,它的参数response就是响应内容,你可以从中解析要获取的内容和新的链接;解析的方式可以通过xpath和css,这里用xpath;然后可以通过yield,把解析到的对象推送到存储流程中,如果你想爬虫系统继续爬取新的链接,也可以通过yield来进入下一步爬取中。

from HelloScrapy.items import HelloscrapyItem

class DemoScrapy(scrapy.Spider):

    name = 'demo'

    allowed_domains = ['jianshu.com']

    start_urls = [

        '',

        '',

    ]

    def parse(self, response):

        user_sel = response.xpath('//body/div/div/div/div/div/ul/li/div/p/text()')

        item = HelloscrapyItem()

        item['text_num'] = int(user_sel[0].extract())

        item['favor_num'] = int(user_sel[1].extract())

        yield item

Item

上面代码中的item就是用于描述抓取到的数据结构,它们每个属性都用scrapy.Field()表示。

import scrapy

class HelloscrapyItem(scrapy.Item):

    # define the fields for your item here like:

    name = scrapy.Field()

    text_num = scrapy.Field()

    favor_num = scrapy.Field()

Pipeline

它负责整个存储的过程,可以存储在json文件中,也可以通过数据库。

但是首先,你需要在settings.py中声明你的pipeline(默认有的,打开注释然后修改下):

# Configure item pipelines

# See

ITEM_PIPELINES = {

  'HelloScrapy.pipelines.MySqlPipeline': 300,

}

如果使用最简单的json方式,可以定义如下:

其中open_spider,close_spider如名字一样,分别会在启动spider和结束spider时调用,所以这里分别定义了文件的打开和关闭;

而process_item就是对每个item的存储处理,这里将item进行json化,保存在预定义的文件中。

import json

class HelloscrapyPipeline(object):

    def open_spider(self, spider):

          self.file = open('./items.txt', 'w')

    def close_spider(self, spider):

        self.file.close()

    def process_item(self, item, spider):

        line = json.dumps(dict(item))

        self.file.write(line)

        return item

我这边使用的是mysql,介绍如下。

mysql

首先定义一个mysql的封装类,支持打开和关闭一个数据库,创建一个表,插入一条数据。

import mysql.connector

from mysql.connector import errorcode

from settings import *

class MySqlDb(object):

    def __init__(self, db_name):

        self.db_name = db_name

        self.cnx = None

        self.cursor = None

        pass

    def open(self):

        self.cnx = mysql.connector.connect(user=MYSQL_USER_NAME,        password=MYSQL_PASS_WORD)

        self.cursor = self.cnx.cursor()

        self.__ensureDb(self.cnx, self.cursor, self.db_name)

        pass

    def close(self):

        if self.cursor:

            self.cursor.close()

        if self.cnx:

            self.cnx.close()

        pass

    def createTable(self, tbl_ddl):

        if self.cnx and self.cursor:

            self.__ensureDb(self.cnx, self.cursor, self.db_name)

            self.__ensureTable(self.cursor, tbl_ddl)

            pass

    def insert(self, sql, values):

        if self.cnx and self.cursor:

            try:

                self.cursor.execute(sql, values)

                self.cnx.commit()

            except:

                pass

        pass

    def __ensureDb(self, cnx, cursor, db_name):

        try:

            cnx.database = db_name

        except mysql.connector.Error as err:

              if err.errno == errorcode.ER_BAD_DB_ERROR:

                  try:

                      cursor.execute("CREATE DATABASE {} DEFAULT CHARACTER SET 'utf8'".format(db_name))

                    except mysql.connector.Error as create_err:

                        print("Failed creating database: {}".format(create_err))

                        exit(1)

                    cnx.database = db_name

                else:

                    print err

                    exit(1)

    def __ensureTable(self, cursor, tbl_ddl):

        try:

            cursor.execute(tbl_ddl)

        except mysql.connector.Error as err:

            if err.errno == errorcode.ER_TABLE_EXISTS_ERROR:

                pass

            else:

                print err.msg

        else:

            pass

然后抽象一个item的基类:

该类的insertToDb定义了插入的过程,由每个子类提供创建表和插入数据的sql语句。

import scrapy

class BaseItem(scrapy.Item):

    def insertToDb(self, mysqldb):

            table_sql = self.getTableSql()

            insert_sql = self.getInsertSql()

            if table_sql and insert_sql:

                mysqldb.createTable(table_sql)

                mysqldb.insert(insert_sql, dict(self))

            else:

                print 'Empty!!!!!!!!!!!!!!!!!!!!!!!'

            pass

    def getTableSql(self):

        return None

    def getInsertSql(self):

        return None

它的一个子类示意:

import scrapy

from item_base import *

class ArticleItem(BaseItem):

    item_type = scrapy.Field()

    title = scrapy.Field()

    author = scrapy.Field()

    author_link = scrapy.Field()

    content = scrapy.Field()

    def getTableSql(self):

        return "CREATE TABLE `article` ("

            "  `title` varchar(256) NOT NULL,"

            "  `author` varchar(128) NOT NULL,"

            "  `author_link` varchar(1024) NOT NULL,"

            "  `content` TEXT(40960) NOT NULL,"

            "  PRIMARY KEY (`title`)"

            ") ENGINE=InnoDB"

    def getInsertSql(self):

        return "INSERT INTO article "

              "(title, author, author_link, content) "

              "VALUES (%(title)s, %(author)s, %(author_link)s, %(content)s)"

这样,爬取到的内容记录在不同类型的item中,最后又通过item的insertToDb过程,插入到mysql中。

可以通过workbench直接查看:

图片 3

爬取技巧

上面的基本元素都有了,我们继续看下爬取过程中的一些小问题。

首先是怎么使用xpath解析网页元素。

xpath返回的是selector,对应网页中的dom结构,比如我们用chrome调试器看下网页的结构:

图片 4

当鼠标放置一个地方,真实网页中会显示对应的选中区域的,所以你可以对照左边一层层找到它所对应的html结构,比如"//body/div/div/div"。

获取属性方法使用@,如@href

xpath('div/div/span/@data-shared-at')

使用@class提取节点

response.xpath('//body/div[@class="note"]')

抓取html内容

content = article_sel.xpath("div[@class='show-content']/div[@class='show-content-free']/*").extract()

content = ''.join(content)

抓取文本

content = article_sel.xpath("div[@class='show-content']/div[@class='show-content-free']//text()").extract()

content = ''.join(content)

其次是怎么让爬虫延伸。

当你抓取到一个感兴趣的链接后,比如当前正在爬取的是某个人的简书主页,网页中有很多文章链接,你想继续爬取的话,就可以yield出去:

"""

url: 要继续爬取的链接

callback: 爬取后的响应处理

"""

yield scrapy.Request(url=link, callback=self.parse)

但是一般看到的链接是相对地址,所以你要先做一个处理:

from urlparse import urljoin

link = urljoin('', link)

我们也看到,上面的self.parse方法被用在很多网页请求中,但是这些网页的格式可能是不一样的,那么你需要做一个分类:

cur_url = response.url

if cur_url.startswith(''):

    pass

elif cur_url.startswith(''):

    pass

最后讲一下怎么去抓动态网页。

你可以分析下简书某个专题的网页格式,它的内容列表一般是10条,但是你往下滑动的时候它又会增多;当爬取这个专题网页的时候,你只能解析最开始的10条,怎么办呢?

打开调试器,选择network/XHR,当你在左边的网页中不停往上滑动的时候,就会不断出现右边新的链接,有没有发现什么?

这些网页都是有规律的,xxx?order_by=added_at&page=xx,其中order_by就是这个专题的Tab目录,added_at表示最新添加的,而page就是第几个页。

如果你遍历所有的page页,不就把这些动态网页抓取到了吗?不过有个坏消息,就是page页有上限,目前是200,不要告诉是我说的。。。

图片 5

  一般筛选内容都会选择目标内容组件的上层容易唯一标识的组件,在这里我选择了<div class=”joketype l_left”></div>这个html,这个div可以包含所有分类的内容,然后再进行一次筛选就可以把所有url筛选出来了。到了分类子页面我看了一下url的规律,这个分类的url都是/listXX_1.htm开始,发现分类页面里面有个尾页的按钮的url刚好是结束,并且url的.htm前面的那个数字递增,所以就很好爬取所有笑话页面了,至于提取笑话就不再多说了,直接上所有代码。

代码工程


代码我上传到了github上,其中HelloScrapy/db/settings.py中的变量是无效的,需要配置为有效的mysql用户名和密码。

https://github.com/callmejacob/spider

严重声明:

本文涉及的方法和代码都只用于学习和研究,严禁转载和用于商业目的,否则后果自负!

  mysql数据库存储模块代码,文件名为mysql.py。

import pymysql

def insert(joke):
    #获取链接
    conn=pymysql.connect(host='127.0.0.1',user='root',passwd='123456',db='python')
    cur=conn.cursor()
    #sql语句,%s是占位符(%s是唯一的,不论什么数据类型都使用%s)防止sql注入
    sql='insert into joke(joke) VALUES(%s)'
    #params=('eric','wuhan') #参数 插入单条
    #li=[('a1','b1'),('a2','b2')] #批量插入参数
    #reCount=cur.execute(sql,params)
    reCount=cur.executemany(sql,joke) #批量插入
    conn.commit() #提交,执行多条命令只需要commit一次就可以
    cur.close()
    conn.close()

def get_one():
    #获取链接
    conn=pymysql.connect(host='127.0.0.1',user='root',passwd='123456',db='python')
    cur=conn.cursor()
    sql1='select number from number'
    reCount=cur.execute(sql1)
    number=cur.fetchone()[0] 1
    sql2='select joke from joke where id=%s'
    reCount=cur.execute(sql2,number)
    joke=cur.fetchone()[0]
    sql3='update number set number=%s where number=%s'
    params=(number,number-1)
    reCount=cur.execute(sql3,params)
    conn.commit()
    cur.close()
    conn.close()

本文由67677新澳门手机版发布于计算机编程,转载请注明出处:爬取简书专题,Python爬取笑话存储在mysql里

关键词: