Scrapy爬虫开发流程,scrapy创建爬虫的基本步骤

admin

知识库

发布于：2022-06-19 10:07:47

初学者学习scrapy创建爬虫的时候往往不知道具体的步骤是什么样的，这里给大家梳理scrapy创建爬虫的基本步骤，希望对你有所帮助。

前提条件：1、新建一个项目文件项目;2、导入scrapy模块

第一步创建项目：在pycharm的Terminal控制台中执行命令：scrapy startproject <文件名>

第二步：明确目标，我们要看我们想要的数据在哪里

第三步：建模

首先在我们新建的项目里找到item.py文件。

写入想要获取的数据名，这里要获取标题、以及日期。

第四步：完成爬虫

1、先创建爬虫文件，在terminal控制台中执行：cd <爬虫文件名>，然后执行：scrapy genspider <爬虫名> <想要抓取的域名>

2、执行命令之后就可以找到已经生成的文件了，打开进入编辑。注意start_url一定是抓取的数据域名。

3、解析数据，并编写解析规则;

第四步：保存数据

1、找到pipelines.py文件，并编写保存规则。

2、找到settings.py文件，并打开ITEM_PIPELINES。

第五步：运行程序

来到teminal工作台，执行：scrapy crawl <程序名称>

程序执行完毕即可看到生成的文件。