爬虫
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
于福笑 932c20b4f7 fix 1 year ago
gzproject fix 1 year ago
.gitignore update 1 year ago
README.md update-readme 1 year ago

README.md

目录结构

gzproject: django 项目目录

gz_spider: 爬虫项目主目录
    gz_spider: 爬虫应用
        spider: 以后所有的爬虫都会放在这个里面
            guangzhou_spider.py
            shenzhen_spider.py
            ....
        db: 数据库相关
        items.py: 用来存放数据的模型字段
        midlewares.py: 存放各种中间件,如:ip 代理、请求头
        pipelines.py: 用来将 items 的模型数据保存起来,如:保存在本地、数据库等
        settings.py: 本爬虫应用的配置文件
    scrapy.cfg: 项目的配置文件,一般用于部署时使用
    start.py: 启动文件
gzproject:
    asgi.py: 为了支持异步网络服务器和应用而出的 python 新标准
    settings.py: 配置文件
    urls.py: 路由配置
    wagi: 部署平台,是 web 服务器和 web 应用的接口规范或是标准
gz_spider: app应用
    migrations: 数据库迁移文件目录
        0001.initial.py
        0002.shenzhenspider.py
        ....
    admin.py: django 管理后台站点
    apps.py: 已安装应用注册表
    models.py: 模型类,用户创建表结构
    tests.py: 自动化测试脚本
    views.py: 视图函数
manager.py: 用于管理任务的命令行程序
requirements.txt: 存放项目依赖包

一些模块介绍

1.Scrapy:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架
    * Scrapy官方文档:https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/overview.html
    * 安装:pip install scrapy,如有报错请自行解决

2.request:通过该模块可发送 HTTP 请求,同样适用于爬虫
    * request官方文档:https://requests.readthedocs.io/zh_CN/latest/
    * 安装:pip install requests

3.Django: 
    * 是一个开放源代码的 Web 应用框架,由 Python 写成
    * ORM 映射,只需定义模型类,就能生成数据库表
    * 有自己的 admin 管理后台,只需简单配置就可使用
    * 开发效率高,开箱即用,详情见官方文档
    * 生态体系完善,如:官方文档齐全、论坛交流等
    * 安装:pip isntall django
    * Django官方文档:https://docs.djangoproject.com/zh-hans/3.1/

4.在本项目中 django 的作用:
    * 使用 django + scrapy_djangoitem 将数据 保存到模型中
    * 设置定时任务对爬虫项目的定时维护爬取
    * 安装:pip isntall scrapy_djangoitem

5.fake_useragent:
    * 用户代理,又叫报头,是一串字符串,相当于浏览器的身份证号。在利用爬虫爬取网站数据时,频繁更换它可以避免触发相应的反爬机制。
    * 安装:pip install fake_useragent