爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 网络爬虫(又称为网页蜘蛛,网络机器人)是其中一种类型。 爬虫可以自动化浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则进行,这些规则我们称之为网络爬虫算法。
——使用讯飞星火认知大模型提问“爬虫是什么?”
前言
本文是参加新星计划Python编程基础及爬虫入门的学习笔记,感谢爱吃饼干的小白鼠老师的Python知识分享。下面主要介绍本人利用几个人工智能模型学习Python爬虫的过程,供各位小伙伴参考。
一、ChitGPT学习Python爬虫
(一)ChitGPT介绍
ChitGPT是CSDN自带的人工智能模型,是一个纯文本AI模型,可以回答我的很多问题,也会编写、优化代码。
(二)爬虫代码初体验
- 使用ChitGPT提问:“python爬虫代码”
- 代码测试
import requests
url = "http://www.example.com" # 指定要爬取的网页地址
response = requests.get(url) # 发送请求获取网页内容
html = response.text # 获取网页 HTML 代码
print(html) # 打印 HTML 代码
- 执行结果
如下图所示,打印出网页。
二、讯飞星火认知大模型学习Python爬虫
(一)讯飞星火认知大模型介绍
讯飞星火认知大模型
(二)爬虫代码初体验
- 使用讯飞星火提问:“python爬虫代码”
- 代码测试
import requests
from bs4 import BeautifulSoup
url = 'https://www.example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
title = soup.find('h1').text
print(title)
- 执行结果
三、常见爬取场景尝试
(一)爬取图片
- 使用讯飞星火提问
- 代码测试
import os
import requests
from bs4 import BeautifulSoup
def download_image(url, save_path):
response = requests.get(url)
with open(save_path, 'wb') as f:
f.write(response.content)
def crawl_images(url, save_dir):
if not os.path.exists(save_dir):
os.makedirs(save_dir)
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
images = soup.find_all('img')
for img in images:
img_url = img.get('src')
if img_url.startswith('http'):
img_name = img_url.split('/')[-1]
save_path = os.path.join(save_dir, img_name)
download_image(img_url, save_path)
print(f'下载图片:{img_url}')
if __name__ == '__main__':
url = 'http://www.dili360.com/cng/tag/list/6488.htm' # 替换为你想要爬取图片的网站URL
save_dir = 'images' # 保存图片的文件夹
crawl_images(url, save_dir)
- 执行结果
(二)爬取特定文字信息
- 使用讯飞星火提问
2. 代码测试
import requests
import re
def get_links(url):
response = requests.get(url)
page_content = response.text
links = re.findall('"((http|ftp)s?://.*?)"', page_content)
return links
print(get_links('http://www.dili360.com/cng/tag/list/6488.htm'))
- 执行结果
- 扩展尝试
(1)可以看到下面截图网站link中含有多个链接
(2)正则爬取所有链接
import requests
import re
def get_links(url):
response = requests.get(url)
page_content = response.text
links = re.findall('"((http|ftp)s?://.*?)"', page_content)
return links
print(get_links('http://www.example.com'))
(3)修改正则表达式,尝试爬取其他内容
如下截图,爬取h3中开头为“闽江复航”的标题内容
定位所要爬取内容位置
正则定位内容
import requests
import re
url = 'http://www.dili360.com/cng/tag/list/6488.htm'
response = requests.get(url)
html_content = response.text
# 使用正则表达式匹配以“闽江复航”开头的h3标题
pattern = re.compile(r'<h3>闽江复航.*?</h3>', re.S)
titles = pattern.findall(html_content)
# 打印匹配到的标题
for title in titles:
print(title)
爬取结果
总结
爬虫是一种自动化程序,可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。此时,我们可以使用网络爬虫对互联网上的信息进行自动化采集和整理。文章来源:https://www.toymoban.com/news/detail-483545.html
爬虫可以用于很多方面,例如:搜索引擎、数据分析、舆情监测、电商平台、金融市场等等。在这些领域中,爬虫可以帮助我们快速获取大量的数据,并且可以自动化地进行处理和分析 。文章来源地址https://www.toymoban.com/news/detail-483545.html
到了这里,关于利用人工智能模型学习Python爬虫的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!