首页>>后端>>Python->python爬虫一次可爬多少?

python爬虫一次可爬多少?

时间:2023-12-12 本站 点击:0

导读:今天首席CTO笔记来给各位分享关于python爬虫一次可爬多少的相关内容,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

python爬虫爬取只显示10个

一个借口几万条数据但是只返回十条_爬虫实践之爬取10000条菜谱数据

2020-12-03 06:37:24

weixin_39990029

码龄5年

关注

be22f93fc7bbc7cbdd62166579a1fd22.png

爬虫实践之XX行代码爬取10000菜谱数据

什么是爬虫

爬虫:又叫做 网络蜘蛛,是一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。

点击这里了解Python爬虫介绍

如何合法地爬虫

有些网站不允许网络爬虫,或是对可爬取的内容做了限制,一个网站的爬虫协议可通过访问该网站的robots.txt文件获得

以豆瓣网为例

访问该网址(),可了解到豆瓣的爬虫协议如下

1fe03008a450885dc6da49785543e75c.png

可以看到,豆瓣对于不同的访问者有不同的访问限制,其中对于用户名为 Wandoujia Spider的访问者,豆瓣不允许访问。

我用到的菜谱网站对爬虫无限制,所以爬虫是合法的。

e4025d9f5d8b96388efa942e0255d1f9.png

本篇特色

连续爬取10000个网页

引入第三方库

import requests #发送请求

import re #正则表达式,用于提取网页数据

import winsound #提醒程序运行结束

import time #计算程序运行时间

如果没有安装这些第三方库,可以在命令提示符中输入如下代码,进行下载

pip install requests,re,winsound,time

爬虫的三个步骤

获取要爬取的所有网页的网址

提取网页内容中的有用信息

信息导出

每个步骤对应一个函数

Step_1 获取要爬取的所有网页的网址

首先我们打开该网址,查看它的源代码

0f0eb8b89c9bf17460bca4d47f017bab.png

365621d25c80f92834853350c083a545.png

网页源代码

观察发现每道菜对应的网址在这个目录下

9d729b843df3a746d70ea7af31a1d962.png

用正则表达式获得该网址,写入列表中

由于每一个网页只有十道菜,点击下一页后发现网页的变化规律为换页时网址只有数字改变

d342d8422e16c48c9600a47a45a6d1c9.png

可以看到最多有1000页,也就是有10000道菜

fb279b42fcdd3cecf7cda79ba4a8ae53.png

使用循环,将每一页的菜对应的网址都写入列表,每一次写入时写入一行列表,多次写入后,形成一个二维的列表,前两页的菜谱网址在二维列表中显示如下:

31e3755dc8b45ec6f4dac3c05f261539.png

代码如下

all_url = [] #创建一个数组用于存储网页地址

def get_all_url(n): #这个函数用于获得网页中的菜的全部网址

if(n==1):

url = ""

else:

url=''%n #%s相当于C语言中的%s,表示格式化一个对象为字符,同理%d表示格式化一个对象为整数

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64)

AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36" }

response = requests.get(url,headers=headers) #访问网页

response.encoding = "utf-8" #设置接收编码格式

pattern = re.compile(r'a target="_blank" href="([a-zA-z]+://[^s]*)"', re.S)

#正则表达式提取网页中的网址,re.S表示在整个文本中进行匹配,如果不加re.S,将只在一行进行匹配

result = pattern.findall(response.text) #获取的网页结果存储到result里

all_url.append(result[0:10])#由于每页只有十道菜,result中只有前十条对应的是菜的网址,故我们只添加前十条

return all_url #作为返回值返回这个列表

关于headers的说明

在使用python爬虫爬取数据的时候,经常会遇到一些网站的反爬虫措施,一般就是针对于headers中的User-Agent,如果没有对headers进行设置,User-Agent会声明自己是python脚本,而如果网站有反爬虫的想法的话,必然会拒绝这样的连接。而修改headers可以将自己的爬虫脚本伪装成浏览器的正常访问,来避免这一问题。 点击这里了解详情

关于编码格式utf-8 的说明

utf-8,可以编码中文,大部分python编译器都默认编码方式为utf-8 点击这里了解详情

Step_2 提取网页中的有用信息

打开一道菜的网址,查看源代码,寻找我们需要的信息在哪里,然后用正则表达式获取,流程与上个函数获取网址相同

主辅料信息在这里

c0ddfd3110775bb8b71759f6927f26d4.png

特征信息在这里(包括做法和口味)

38c99c1a51137debcafe38ae3122e19a.png

def get_info(resp,output):

name_pattern = re.compile(r'h1(.*)/h1')# 正则表达式获取菜名信息

food_pattern = re.compile(r'span class="t"(.*)/spanspan class="a"(.*)/span/a/div')# 正则表达式获得主料信息

fixing_pattern = re.compile(r'div class="c_mtr_li"span class="t1"(.*)/spanspan class="a"(.*)/span/div') # 正则表达式获得辅料信息

fearture1_pattern = re.compile(r'div class="cpargs cpargs2"div class="i"/div(.)/div')# 正则表达式获得特征_1

fearture2_pattern = re.compile(r'div class="cpargs cpargs3"div class="i"/div(.*)/div')# 正则表达式获得特征_2

name = name_pattern.findall(resp.text) # 提取菜名信息

food = food_pattern.findall(resp.text)# 提取主料信息

fixing = fixing_pattern.findall(resp.text)#提取辅料信息

fearture1 = fearture1_pattern.findall(resp.text) #提取特征_1

fearture2 = fearture2_pattern.findall(resp.text)#提取特征_2

output.write(str(name))#将菜名写入output文件,write函数不能写int类型的参数,所以使用str()转化

output.write('t')#进入下一个单元格

output.write(str(fearture1))#将特征_1写入output文件

output.write('t')#进入下一个单元格

output.write(str(fearture2))#将特征_2写入output文件

output.write('t')#进入下一个单元格

for i in range(len(food)):

for j in range(len(food[i])):

output.write(str(food[i][j])) #写入主料

output.write('t')

if(len(food)11):

output.write('t'*2*(11-len(food))) #每道菜的主料数目不同,该行代码可使表格内容对齐

for i in range(len(fixing)):

for j in range(len(fixing[i])):

output.write(str(fixing[i][j])) #写入辅料

output.write('t')

output.write('n') #换行

Step_3 信息导出

def spider():

output = open('E:programingpython苏菜_2.xls','w',encoding='utf-8')#创建一个excel文件,编码格式为utf-8

output.write('名称t做法t特色t主料')#写入标题栏

output.write('t'*22)#使内容对齐

output.write('辅料n')#写入标题栏

for i in range(len(all_url)):

for j in range(len(all_url[i])):

url2=all_url[i][j]

response = requests.get(url2)#逐个访问网页,获得数据

response.encoding = "utf-8" #设置接收编码格式

get_info(response,output)#处理数据,提取信息

output.close()#关闭文件

主函数

time_start = time.time()#记录程序开始时间

for i in range(1,2):#逐页获取菜谱网页信息

get_all_url(i)

spider()#进行提取处理并导出

duration = 1000#提示音时长,1000毫秒 = 1秒

freq = 440 #提示音频率

time_end=time.time()#记录程序结束时间

print('totally cost',time_end-time_start)#打印程序运行时间

winsound.Beep(freq,duration*10) #响铃提示程序结束

经实验,爬取10000条代码需要用时3453秒左右

e8b6c8637980d2aef9587711c7084a5f.png

最后获得的数据如下

97a8662cf048844850658aef841e04c3.png

写在后面

我是一个C语言上不了80的小白,全靠某度和某歌东拼西凑我的这个程序,在代码风格与写作等方面存在不可避免地会有一些错误和不足的地方,希望大家多多与我交流,多多批评指教我。

Python爬虫可以爬取什么

Python爬虫可以爬取的东西有很多,Python爬虫怎么学?简单的分析下:

如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得简单、容易上手。

利用爬虫我们可以获取大量的价值数据,从而获得感性认识中不能得到的信息,比如:

知乎:爬取优质答案,为你筛选出各话题下最优质的内容。

淘宝、京东:抓取商品、评论及销量数据,对各种商品及用户的消费场景进行分析。

安居客、链家:抓取房产买卖及租售信息,分析房价变化趋势、做不同区域的房价分析。

拉勾网、智联:爬取各类职位信息,分析各行业人才需求情况及薪资水平。

雪球网:抓取雪球高回报用户的行为,对股票市场进行分析和预测。

爬虫是入门Python最好的方式,没有之一。Python有很多应用的方向,比如后台开发、web开发、科学计算等等,但爬虫对于初学者而言更友好,原理简单,几行代码就能实现基本的爬虫,学习的过程更加平滑,你能体会更大的成就感。

掌握基本的爬虫后,你再去学习Python数据分析、web开发甚至机器学习,都会更得心应手。因为这个过程中,Python基本语法、库的使用,以及如何查找文档你都非常熟悉了。

对于小白来说,爬虫可能是一件非常复杂、技术门槛很高的事情。比如有人认为学爬虫必须精通 Python,然后哼哧哼哧系统学习 Python 的每个知识点,很久之后发现仍然爬不了数据;有的人则认为先要掌握网页的知识,遂开始 HTMLCSS,结果入了前端的坑,瘁……

但掌握正确的方法,在短时间内做到能够爬取主流网站的数据,其实非常容易实现,但建议你从一开始就要有一个具体的目标。

在目标的驱动下,你的学习才会更加精准和高效。那些所有你认为必须的前置知识,都是可以在完成目标的过程中学到的。这里给你一条平滑的、零基础快速入门的学习路径。

1.学习 Python 包并实现基本的爬虫过程

2.了解非结构化数据的存储

3.学习scrapy,搭建工程化爬虫

4.学习数据库知识,应对大规模数据存储与提取

5.掌握各种技巧,应对特殊网站的反爬措施

6.分布式爬虫,实现大规模并发采集,提升效率

学习 Python 包并实现基本的爬虫过程

大部分爬虫都是按“发送请求——获得页面——解析页面——抽取并储存内容”这样的流程来进行,这其实也是模拟了我们使用浏览器获取网页信息的过程。

Python中爬虫相关的包很多:urllib、requests、bs4、scrapy、pyspider 等,建议从requests+Xpath 开始,requests 负责连接网站,返回网页,Xpath 用于解析网页,便于抽取数据。

如果你用过 BeautifulSoup,会发现 Xpath 要省事不少,一层一层检查元素代码的工作,全都省略了。这样下来基本套路都差不多,一般的静态网站根本不在话下,豆瓣、糗事百科、腾讯新闻等基本上都可以上手了。

当然如果你需要爬取异步加载的网站,可以学习浏览器抓包分析真实请求或者学习Selenium来实现自动化,这样,知乎、时光网、猫途鹰这些动态的网站也可以迎刃而解。

了解非结构化数据的存储

爬回来的数据可以直接用文档形式存在本地,也可以存入数据库中。

开始数据量不大的时候,你可以直接通过 Python 的语法或 pandas 的方法将数据存为csv这样的文件。

当然你可能发现爬回来的数据并不是干净的,可能会有缺失、错误等等,你还需要对数据进行清洗,可以学习 pandas 包的基本用法来做数据的预处理,得到更干净的数据。

学习 scrapy,搭建工程化的爬虫

掌握前面的技术一般量级的数据和代码基本没有问题了,但是在遇到非常复杂的情况,可能仍然会力不从心,这个时候,强大的 scrapy 框架就非常有用了。

scrapy 是一个功能非常强大的爬虫框架,它不仅能便捷地构建request,还有强大的 selector 能够方便地解析 response,然而它最让人惊喜的还是它超高的性能,让你可以将爬虫工程化、模块化。

学会 scrapy,你可以自己去搭建一些爬虫框架,你就基本具备爬虫工程师的思维了。

学习数据库基础,应对大规模数据存储

爬回来的数据量小的时候,你可以用文档的形式来存储,一旦数据量大了,这就有点行不通了。所以掌握一种数据库是必须的,学习目前比较主流的 MongoDB 就OK。

MongoDB 可以方便你去存储一些非结构化的数据,比如各种评论的文本,图片的链接等等。你也可以利用PyMongo,更方便地在Python中操作MongoDB。

因为这里要用到的数据库知识其实非常简单,主要是数据如何入库、如何进行提取,在需要的时候再学习就行。

掌握各种技巧,应对特殊网站的反爬措施

当然,爬虫过程中也会经历一些绝望啊,比如被网站封IP、比如各种奇怪的验证码、userAgent访问限制、各种动态加载等等。

遇到这些反爬虫的手段,当然还需要一些高级的技巧来应对,常规的比如访问频率控制、使用代理IP池、抓包、验证码的OCR处理等等。

往往网站在高效开发和反爬虫之间会偏向前者,这也为爬虫提供了空间,掌握这些应对反爬虫的技巧,绝大部分的网站已经难不到你了.

分布式爬虫,实现大规模并发采集

爬取基本数据已经不是问题了,你的瓶颈会集中到爬取海量数据的效率。这个时候,相信你会很自然地接触到一个很厉害的名字:分布式爬虫。

分布式这个东西,听起来很恐怖,但其实就是利用多线程的原理让多个爬虫同时工作,需要你掌握 Scrapy + MongoDB + Redis 这三种工具。

Scrapy 前面我们说过了,用于做基本的页面爬取,MongoDB 用于存储爬取的数据,Redis 则用来存储要爬取的网页队列,也就是任务队列。

所以有些东西看起来很吓人,但其实分解开来,也不过如此。当你能够写分布式的爬虫的时候,那么你可以去尝试打造一些基本的爬虫架构了,实现一些更加自动化的数据获取。

你看,这一条学习路径下来,你已然可以成为老司机了,非常的顺畅。所以在一开始的时候,尽量不要系统地去啃一些东西,找一个实际的项目(开始可以从豆瓣、小猪这种简单的入手),直接开始就好。

因为爬虫这种技术,既不需要你系统地精通一门语言,也不需要多么高深的数据库技术,高效的姿势就是从实际的项目中去学习这些零散的知识点,你能保证每次学到的都是最需要的那部分。

当然唯一麻烦的是,在具体的问题中,如何找到具体需要的那部分学习资源、如何筛选和甄别,是很多初学者面临的一个大问题。

以上就是我的回答,希望对你有所帮助,望采纳。

python爬虫一秒钟最快爬多少条数据

我见过3秒钟喝完一“瓶”啤酒的人,也见过一小时才喝完一“杯”啤酒的人;

我见过一口吃完像巴掌大的面包的人,也见过几天才吃完像手指头大的面包;

——————我是一条可爱的分割线——————

回到正题:

爬虫能爬多少,能爬多快。取决于算法和网速。当然,说白了还是和工程师自己的实力有关。

# 好的爬虫一秒可以爬上万条数据,

# 有的爬虫一天只能爬一条。

print “人生苦短,python当歌”

结语:以上就是首席CTO笔记为大家介绍的关于python爬虫一次可爬多少的全部内容了,希望对大家有所帮助,如果你还想了解更多这方面的信息,记得收藏关注本站。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:/Python/28056.html