网络爬虫
本章主要讲的是基于Python语言的数据采集,该功能要讲起来可以单独作为一门课程来学习,因为这是一门很重要的课程,一般运用在大数据处理和人工智能上,该应用提供大量的数据。
1.urllib模块的学习
urllib模块是python提供给我们操作互联网的模块。接下来我们可以简单的操作一下,爬取一个网页的源代码,其实就是审查元素的操作。urllib中分为四部分:1.request 2.error 3.parse 4.robotparser
request是urllib中最重要的也是最复杂的。
# 网络爬虫 # 导入模块 import urllib.request as req # 爬取该地址的网页源码 res=req.urlopen(r"https://www.baidu.com") # 从爬取的内容中读取信息 html=res.read() # 读取的信息是字节,需要通过编码格式的转换,才能获得和网页上审查元素的源代码一致 html=html.decode("UTF-8") print(html)