初学者学习scrapy创建爬虫的时候往往不知道具体的步骤是什么样的,这里给大家梳理scrapy创建爬虫的基本步骤,希望对你有所帮助。
前提条件:1、新建一个项目文件项目;2、导入scrapy模块
第一步创建项目:在pycharm的Terminal控制台中执行命令:scrapy startproject <文件名>
第二步:明确目标,我们要看我们想要的数据在哪里
第三步:建模
首先在我们新建的项目里找到item.py文件。
写入想要获取的数据名,这里要获取标题、以及日期。
第四步:完成爬虫
1、先创建爬虫文件,在terminal控制台中执行:cd <爬虫文件名>,然后执行:scrapy genspider <爬虫名> <想要抓取的域名>
2、执行命令之后就可以找到已经生成的文件了,打开进入编辑。注意start_url一定是抓取的数据域名。
3、解析数据,并编写解析规则;
第四步:保存数据
1、找到pipelines.py文件,并编写保存规则。
2、找到settings.py文件,并打开ITEM_PIPELINES。
第五步:运行程序
来到teminal工作台,执行:scrapy crawl <程序名称>
程序执行完毕即可看到生成的文件。