网络爬虫是一个可以自动抓取互联网内容的程序。Python有很多库可以用来实现网络爬虫,其中最常用的是requests
(用于发送HTTP请求)和BeautifulSoup
(用于解析HTML)。文章来源:https://www.toymoban.com/news/detail-857406.html
以下是一个简单的Python网络爬虫示例,该爬虫会抓取指定网页的所有标题(<title>
标签)并打印出来:文章来源地址https://www.toymoban.com/news/detail-857406.html
import requests
from bs4 import BeautifulSoup
def get_titles(url):
# 发送HTTP请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code != 200:
print(f"Failed to retrieve the webpage. Status code: {response.status_code}")
return []
# 解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 查找所有的<title>标签
titles = soup.find_all('title')
# 提取并返回标题文本
return [title.text for title in titles]
# 使用示例
url = 'https://www.exam.....pl....e.com' # 替换为你想要爬取的网页URL
titles = get_titles(url)
for title in titles:
print(title)
到了这里,关于python实现爬虫例子2的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!