利用人工智能模型学习Python爬虫-Toy模板网

这篇具有很好参考价值的文章主要介绍了利用人工智能模型学习Python爬虫。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫(又称为网页蜘蛛，网络机器人)是其中一种类型。爬虫可以自动化浏览网络中的信息，当然浏览信息的时候需要按照我们制定的规则进行，这些规则我们称之为网络爬虫算法。
——使用讯飞星火认知大模型提问“爬虫是什么？”

前言

本文是参加新星计划Python编程基础及爬虫入门的学习笔记，感谢爱吃饼干的小白鼠老师的Python知识分享。下面主要介绍本人利用几个人工智能模型学习Python爬虫的过程，供各位小伙伴参考。

一、ChitGPT学习Python爬虫

（一）ChitGPT介绍

ChitGPT是CSDN自带的人工智能模型，是一个纯文本AI模型，可以回答我的很多问题，也会编写、优化代码。
利用人工智能模型学习Python爬虫

（二）爬虫代码初体验

使用ChitGPT提问：“python爬虫代码”

利用人工智能模型学习Python爬虫

代码测试

import requests

url = "http://www.example.com"  # 指定要爬取的网页地址
response = requests.get(url)  # 发送请求获取网页内容
html = response.text  # 获取网页 HTML 代码
print(html)  # 打印 HTML 代码

执行结果

如下图所示，打印出网页。
利用人工智能模型学习Python爬虫

二、讯飞星火认知大模型学习Python爬虫

（一）讯飞星火认知大模型介绍

讯飞星火认知大模型
利用人工智能模型学习Python爬虫

（二）爬虫代码初体验

使用讯飞星火提问：“python爬虫代码”

利用人工智能模型学习Python爬虫

代码测试

import requests

from bs4 import BeautifulSoup


url = 'https://www.example.com'

response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

title = soup.find('h1').text

print(title)

执行结果

利用人工智能模型学习Python爬虫

三、常见爬取场景尝试

（一）爬取图片

使用讯飞星火提问

利用人工智能模型学习Python爬虫

代码测试

import os
import requests
from bs4 import BeautifulSoup

def download_image(url, save_path):
    response = requests.get(url)
    with open(save_path, 'wb') as f:
        f.write(response.content)

def crawl_images(url, save_dir):
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)

    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    images = soup.find_all('img')

    for img in images:
        img_url = img.get('src')
        if img_url.startswith('http'):
            img_name = img_url.split('/')[-1]
            save_path = os.path.join(save_dir, img_name)
            download_image(img_url, save_path)
            print(f'下载图片：{img_url}')

if __name__ == '__main__':
    url = 'http://www.dili360.com/cng/tag/list/6488.htm'  # 替换为你想要爬取图片的网站URL
    save_dir = 'images'  # 保存图片的文件夹
    crawl_images(url, save_dir)

执行结果

利用人工智能模型学习Python爬虫

（二）爬取特定文字信息

使用讯飞星火提问

利用人工智能模型学习Python爬虫
2. 代码测试

import requests
import re

def get_links(url):
    response = requests.get(url)
    page_content = response.text
    links = re.findall('"((http|ftp)s?://.*?)"', page_content)
    return links

print(get_links('http://www.dili360.com/cng/tag/list/6488.htm'))

执行结果

利用人工智能模型学习Python爬虫

扩展尝试
（1）可以看到下面截图网站link中含有多个链接

（2）正则爬取所有链接

import requests
import re

def get_links(url):
    response = requests.get(url)
    page_content = response.text
    links = re.findall('"((http|ftp)s?://.*?)"', page_content)
    return links

print(get_links('http://www.example.com'))

利用人工智能模型学习Python爬虫

（3）修改正则表达式，尝试爬取其他内容
如下截图，爬取h3中开头为“闽江复航”的标题内容
定位所要爬取内容位置
利用人工智能模型学习Python爬虫

利用人工智能模型学习Python爬虫
正则定位内容

import requests
import re

url = 'http://www.dili360.com/cng/tag/list/6488.htm'
response = requests.get(url)
html_content = response.text

# 使用正则表达式匹配以“闽江复航”开头的h3标题
pattern = re.compile(r'<h3>闽江复航.*?</h3>', re.S)
titles = pattern.findall(html_content)

# 打印匹配到的标题
for title in titles:
    print(title)