当前位置：自学咖网 > 技术教程 > 编程最新 > python爬虫，requests使用，网页采集案列：搜狗爬取人物信息

wen 编程最新 2023-10-10

python爬虫，requests使用，网页采集案列：搜狗爬取人物信息

一、初识爬虫，requests使用

requests介绍：

Request支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动响应内容的编码，支持国际化的URL和POST数据自动编码。requests会自动实现持久连接keep-alive

# 导入模块
import requests
# 目标URL
url = "https://www.sogou.com/"
response = requests.get(url=url)  # 发起请求，并接受
# 接受的页面进行解析
page_text = response.text
# 打印出来
print(page_text)
# 保存到本地
with open("sogou.html", "w", encoding="utf-8") as fp:
    fp.write(page_text)
print("结束")

二、网页采集案列：搜狗爬取人物信息

# 导入模块，输入url
import requests
url = "https://www.sogou.com/web?"

# 模拟浏览器UA，防止被发现是个爬虫
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36)"
}

# 输入提示框（要搜索的东西）
name = input("输入一个人名:")

# 构造payload，模拟真实数据包
param = {
    "type": "getpinyin",
    "query": name
}

# 发起请求并接受请求到的内容
response = requests.get(url, params=param, headers=headers)

# 文本方式读取
page_txt = response.text

# 保存网页
filename = name + ".html"
with open(filename, "w", encoding="utf-8") as fp:
    fp.write(page_txt)
    print("succeed")

hmoban主题是根据ripro二开的主题，极致后台体验，无插件，集成会员系统
自学咖网 » python爬虫，requests使用，网页采集案列：搜狗爬取人物信息

wen 普通

分享到：

相关推荐

php无法运行外部命令怎么办

php无法运行外部命令的解决办法：1、检查是否开启了安全模式；2、在“safe_mode_exec_dir”这个路径下执行文件；3、在“php.ini”中配置具体路径即可。 php入门到就业线上直播课：进入学习Apipo...

编程最新 2024-01-31
43

详解strerror函数

创作不易，感谢支持 strerror 头文件：string.h 描述： strerror() 函数接受一个参数：errnum，它是一个表示错误代码的整数值。此函数将错误代码转换为说明错误的合适字符串指针并返回。注意：s...

编程最新 2024-01-31
51

php中nts和ts有什么区别

php中nts和ts的区别：ts表示线程安全，多线程访问时采用了加锁机制，当一个线程访问该类的某个数据时其他线程不能同时访问；而nts表示非线程安全，不提供线程访问保护，多个线程可以同时操作同一数据。本文操作环境：Wi...

编程最新 2024-01-31
53

传授每30秒学会一个Python小技巧

很多学习Python视频教程的朋友在项目实战中会遇到不少功能实现上的问题，有些问题并不是很难的问题，或者已经有了很好的方法来解决。当然，孰能生巧，当我们代码熟练了，自然就能总结一些好用的技巧，不过对于那些还在刚熟悉Pyt...

编程最新 2024-01-31
61

如何使用PHP中的层次性能分析器

本篇文章给大家简单介绍一下PHP中的层次性能分析器。有一定的参考价值，有需要的朋友可以参考一下，希望对大家有所帮助。简单学习PHP中的层次性能分析器在 PHP 中，我们需要进行调试的时候，一般都会使用 memory_...

编程最新 2024-01-31
57

python面向对象教程：类和实例

面向对象简介面向过程的程序设计把计算机程序视为一系列的命令集合，即一组函数的顺序执行。为了简化程序设计，面向过程把函数继续切分为子函数，即把大块函数通过切割成小块函数来降低系统的复杂度。面向对象编程——Object ...

编程最新 2024-01-31
60

自学咖网