花了一周时间,终于把python爬虫入门必学知识整理出来了

Python是近几年最火热的编程语言,大家既然看到了爬虫的知识,想必也了解到python。

很多都说python与爬虫就是一对相恋多年的恋人,二者如胶似漆 ,形影不离,你中有我、我中有你,有python的地方绝对离不开爬虫,有爬虫的地方,话题永远都绕不开python。

因为小编也正在学习python编程,所以了一周时间,将关于python爬虫入门知识整理出来了,这些知识个人觉得是非常重要的,所以希望大家可以收藏起来,不要弄丢哦,毕竟辛. l 0苦了这么久。

花了一周时间,终于把python爬虫入门必学知识整理出来了

什么是爬虫

爬虫是一个0 ! [ m k c l R程序,这个程序的目的就是为了抓G y ! * p 0 g q取万维网信息资源,比如你日常使用的谷歌P O A等搜索引擎,搜索结果就全都依赖爬虫来定时获取。

简单来说,无论你想获得哪些数据,有了爬虫都可以搞定,不l 3 g 4 O g ~ %论是文字、图片、视频,任何结! . - 9 D 8构化非结构化的都能解决。

爬虫模块

re模块—n 8 X o j [ $ = Z—正则表达式模块:

是用于快速从一大堆字符中快速找出想要的子字符串 @ O , i { N ) 7的一种表达方式,这个模块是初学者必须要弄清楚的,当你刚开始用R | A | s 9 / X K的时候会觉得有难度,一旦上手了,你就会爱上它,逻辑性是非常强的。

os模块:

对文件文本的操作,可以创建文件夹,访问文件夹内容等,它会自适应于不同的操作系统平台,根据不同的平台进行相应的操作。

比如说我们常见的os.name,“name”顾名思义就是“名字”,这里的名字是指操作系统的名字,主要~ H o L 5 v [ $作用是判断目前正在使用的平台,也要注意到该命令不带括号。

csv~ = J w l d模块:

爬取出来的数据可以以csv的格式保存,3 5可以用office办公软件中的Excel表格软件打开,所以一般都是用于读文件、写文件、定义格式。

花了一周时间,终于把python爬虫入门必学知识整理出来了

基础的抓取g m 2 0 n R操作

Urllib:

是python内置的HTTP请求库,简单的例子:

import urllib.request

response = urllibG * B ~ f ? B.reqp 0 K vuest.urlopen(\'https://blog.csdn.net/weixin_43499626\')

print(response.read().de: T ^ #code(\'utf-8\'))

Requests:

requests库是一个非常实用的HTPP客户端库,是抓取操作最常用的一个库。

各种请求方式:常用rY b m & z i ! N Uequests.get()和requests.post()

import requests

r = requests.get(\'httpH y F 8s://af ? y e 7 % ) mpi.github.com/events\')

r1 = requests.get(\q B g @ C'http://hr & ^ E Pttpbin.org/post\',data={\'key\':\'value\'})

Requests它会比url` $ H ] R = ilib更加方便,可以节约我们大量的工作

花了一周时间,终于把python爬虫入门必学知识整理出来了

需要登录的接口

post请求:

直接上代码,就能看懂的解释

import requests

url = \"http://test\"

data = {\"keyC ( * [ e v 6\":\"valuew n Y 5 N 3\"}

res = requests.post(url=url,data=data)print(res.text)

get请求:

@c8 Q g [ y Vlassmethod

def send_get(cls, url, params, h} # c jeaders):

response = cls.SessionRequest.get(url=url, params=params,R V L } h headers=headers)

return response.json()

常见的反爬有哪些

从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。这里我们只讨论: . # c数据采集部分。

通过Headg 5 i ; ~ers:

反爬虫从用户请求的Hei ? ~ Eaders反爬虫是最常见的反爬虫策略,果遇到了这类反爬虫机制,可以直接在爬虫中添加Headers,将浏览器的Useru r I { ;-Agent复制到爬虫的Headers中;或者将Referer值修改为N ( = . / ] Q a目标网站域名。

基于用户行为反爬虫:

同一IP短时间内多次访问同一页面,或者同一账户短时间内# U O F多次进行相同操作。[这种防爬,需要有足够多的ip来应对],对于这种情况,使用IP代理就可以解j Y 5决。可] } U n 3 8 6 s以专门写一个R = N爬虫,爬取网上公开的代理ip,检测后全部保存起来。

动态页面的反爬虫:

上述的几种* ) | M =情况大多都是出现在静态页面,还有一部分网H G P L y C m F i站,我们需要爬取的数据是通过ajax请求得到,。首先用Firebug或者Httpv A @ 8Fox对网络请求进行分析,如果能够找到ajax请求,也能分析出具` e h n . f D u体的参数和响应的具体含义,我们就能采用上面的方法,直接利用requests或者urllib2模拟ajax请求,对响应的json进行分析得到需要的数据。

以上就是小编u , P k u C 0所整理的关于爬虫的知识,如果你想要了解到更多python知识o J 2 S U G ,记住关注小编,或者去“蚁小二”平台了解一二哦~

(此处已添加小程序,请到& q * l 2 $ Y % a今日头条客户端查看)
上一篇

酒精肝硬化早期症状有哪些?肝硬化饮食注意7点

下一篇

维生素C能经常吃吗?听听药师怎么说

评论已经被关闭。

插入图片
返回顶部