爬虫和云计算考试

这篇具有很好参考价值的文章主要介绍了爬虫和云计算考试。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

防爬虫应对策略:设置user-agent 使用代理IP 降低访问频率 验证码限制
网页请求原理:DNS,全称为Domain Name System,即域名系统,是一种用于将域名和IP地址相互映射的分布式数据库系统。DNS的作用就是将域网站转换成相应的服务器IP地址
    HTTP协议格式: 由客户端请求消息和服务器端相应消息组成 
    端口443:明确用于HTTPS服务,因此是HTTPS(加密)流量的标准端口。它也称为HTTPS端口443
    get从服务器获取指定页面信息(获取信息),post向服务器提交数据并获取页面信息(发送信息)
    状态码:相应状态码由三位数字组成,其中第一位数字定义了相应的类别,有五种可能取值。
        100~199(服务器成功接收部分请求,要求客户端继续提交其余请求才能完成整个处理过程)
        200~299(成功接收请求并已完成整个处理过程。常为200表示OK,请求成功)
        300~399(为完成请求,客户端需进一步细化请求。例如请求的资源已经移动到一个新的地址。302'所请求页面转移到新的URL' 307,304'表示使用缓存资源')
        400~499(客户请求有错误,常用状态码为404'服务器无法找到被请求的页面',403'服务器拒绝访问,权限不够')
        500~599(服务器端出现错误,500'表示请求未完成,服务器遇到不可预知的情况')
url用起来麻烦 python自带
request简单需要pip安装
安装selenium:打开cmd 输入pip install selenium (指定版本则在后面加上"==版本号")  速度太慢找国内pip镜像网站(pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple)
        查看版本:pip show selenium
        
user-agent表示用户代理,是HTTP协议中的一个字段,在其请求头部headers里面,其作用是描述发出HTTP请求的终端信息,服务器通过这个字段可以知道访问网站的用户。
超时设置 在request语句之后 file=... ... ...(url,timeout=1)无限等待为空值  作用:防止url不可访问,或者响应速度太慢而造成的时间浪费。
安装beautifulsoup:pip install beautifulsoup4 
安装lxml:一:pip install lxml 报错方法二:先安装wheel库  pip install wheel 查看python版本 然后从pypi.python.org上下载lxml的.whl文件 找到文件位置打开cmd 输入pip install+文件全名
xpath:书本p66

分布式
会做实验就没问题
Linux ssh连接服务器 端口22tcp 用win scp
传文件
Windows server 远程桌面连接 端口3389
直接复制粘贴传文件
安全组设置防火墙
防火墙概念
linux命令如cd 创建删除文件夹
文本编辑器 nano
安装Inmp全称linuxnginxmysqlphp
ntp全称作用给其他设备提供当前时间
不考最难的vpn但是要会生成证书什么的代码
传输层协议TCP UDP 端口80 43
上机一道linux操作题一道实验题之一
没有最难的vpn

爬虫和云计算考试,爬虫,云计算爬虫和云计算考试,爬虫,云计算爬虫和云计算考试,爬虫,云计算爬虫和云计算考试,爬虫,云计算

爬虫和云计算考试,爬虫,云计算

(1)

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver import ActionChains

import time

options = webdriver.ChromeOptions()

options.add_experimental_option('detach', True)

driver = webdriver.Chrome(options=options)

driver.get('https://yjsy.hunnu.edu.cn')

time.sleep(5)

xpath_1 = "//ul[@class='menu']/li[4]/a"

xpath_2 = "//ul[@class='menu']/li[4]/ul/li[2]/a"

button_1 = driver.find_element(By.XPATH, xpath_1)

button_2 = driver.find_element(By.XPATH, xpath_2)

ActionChains(driver).move_to_element(button_1).perform()

time.sleep(5)

ActionChains(driver).move_to_element(button_2).click().perform()

(2)

from selenium import webdriver

from selenium.webdriver.common.by import By

#不让浏览器自动关闭

options = webdriver.EdgeOptions()

options.add_experimental_option('detach', True)

driver = webdriver.ChromiumEdge(options=options)

#加载网页,获取源代码

url = 'https://www.bilibili.com/v/popular/all/'

driver.get(url)

#导入BeautifulSoup,筛选数据

from bs4 import BeautifulSoup

soup = BeautifulSoup(driver.page_source, 'lxml')

result = soup.find_all('div', class_='video-card')

for item in result:

    title = item.find('p', class_='video-name')

    up = item.find('span', class_='up-name__text')

    count = item.find('span', class_='play-text')

    print(f'视频:{title.text},UP:{up.text},播放量:{count.text.strip()}')

(3)

from selenium import webdriver

url = 'https://www.bilibili.com/video/BV1iN4y1a7KJ'

options = webdriver.ChromeOptions()

options.add_experimental_option('detach', True)

driver = webdriver.Chrome(options=options)

driver.get(url)

import time

time.sleep(5)

html = driver.page_source

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'lxml')

title = soup.find('h1', class_="video-title")

count = soup.find('span', class_="view item")

dm = soup.find('span', class_="dm item")

datetime = soup.find('span', class_="pubdate-text")

comments = soup.find_all('div', class_="content-warp")

comments_text = []

for comment in comments:

    name = comment.find('div', class_="user-info").text

    text = comment.find('span', class_="reply-content").text

    comments_text.append({

        'name': name,

        'text': text

    })

# 输出结果

print(f"标题:{title.text},播放量:{count.text.strip()},弹幕数:{dm.text.strip()}")

for comment in comments_text:

    print(f"评论:\nID:{comment['name']},评论内容:{comment['text']}")

driver.close()文章来源地址https://www.toymoban.com/news/detail-760515.html

到了这里,关于爬虫和云计算考试的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据和云计算,斩获offer

    先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7 深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前! 因此收集整理了一份《2024年最新大数据全套学习资料》,

    2024年04月27日
    浏览(28)
  • 云计算安全和云原生安全的关系

    云计算安全(Cloud Computing Security)指的是在云环境中保护数据、应用程序和基础设施的安全性。它包括保护云服务提供商的基础设施和平台,以及云服务用户的数据和应用程序。 云原生安全(Cloud-Native Security)则是指在云原生环境中保护应用程序和服务的安全性。云原生是一种软

    2024年02月08日
    浏览(28)
  • 虚拟化技术和云计算的关系

    1、云计算底层就是虚拟化技术。 (1)常见的虚拟化技术:VMware(闭源的,需要收费)、XEN、KVM (2)大部分公司用的虚拟化方案:XEN、KVM 2、虚拟化的历史 (1)1999年VMware首先推出了X86架构虚拟化产品 (2)2002年XEN开源了 (3)2006年以色列公司qumaranet开发了KVM虚拟化 (4)

    2024年02月03日
    浏览(92)
  • 一个专科生和云计算的故事

    老师给我们往年的比赛真题让我们慢慢啃不断学习,然后就是自己背题按照题上的步骤一步一步的在linux上输入命令去搭建IAAS平台、起初感觉很帅,输入一个命令电脑上一直不断的出现代码!慢慢的记住了搭建IAAS、SAAS、bigdate平台的流程,但是并不知道为什么要输这些命令,

    2024年04月10日
    浏览(27)
  • 虚拟化和云计算文章大合集

    近期,我写了很多虚拟化和云计算类文章,先将各文章整理如下,衷心建议您收藏,慢慢查阅(〜㉨)〜 KVM详解(一)——KVM基础知识 KVM详解(二)——KVM安装部署 KVM详解(三)——KVM创建虚拟机 KVM详解(四)——KVM克隆与KVM配置文件 KVM详解(五)——KVM虚拟机镜像格式

    2024年02月01日
    浏览(33)
  • hcie数通和云计算选哪个好?

    1. 基础知识与技能要求 数通技术是网络技术的核心,它涉及到网络协议、路由交换、网络安全等多个方面。如果你是一名网络工程师或开发者,想要在数通领域有所建树,你需要具备扎实的基础知识和丰富的实战经验。 云计算则更注重于虚拟化、存储、网络和服务器等方面

    2024年03月16日
    浏览(38)
  • 一文带你了解云原生和云计算

    云计算和云原生 云计算和云原生其实都是表达一个意思 ,只是站的角度不一样。 云计算,更多是站在 产品或者运营的角度 来解释如何充分利用物理机的计算资源; 云原生,更多是站在 技术实现的角度 来解释如何充分利用物理机的计算资源; 云计算是什么 通过互联网向用

    2024年02月05日
    浏览(24)
  • 独立服务器和云计算之间的区别

    独立服务器和云计算之间的区别 云计算如今风靡一时,提供了冗余、可扩展性和按需服务,但人们对许多网络托管提供商宣传的云到底是什么充满了疑问。唉,云计算不能被用来适应每一个业务应用,因此这种对独立服务器和云服务之间基本区别的解释。 磁盘输入输出 正确

    2023年04月11日
    浏览(67)
  • Java分布式系统和云计算教程

    Java分布式系统和云计算教程 大规模学习分布式 Java 应用程序、并行编程、分布式计算和云软件架构 课程英文名:Distributed Systems Cloud Computing with Java 此视频教程共4.0小时,中英双语字幕,画质清晰无水印,源码附件全 课程编号:324 百度网盘地址:https://pan.baidu.com/s/1qGJzKMXt

    2024年02月01日
    浏览(33)
  • 算力调度和云计算有何区别

    Canalys发布的研究报告显示,2023年第二季度,全球云基础设施服务支出增长16%,达到724亿美元。 此前云厂商们的高速增长,主要归功于大规模的企业数字化转型和上云。当前市场的增速放缓,除了上云普及带来的市场增量见顶,也与全球宏观经济的不确定性紧密相关,降本增

    2024年03月18日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包