爬虫（bilibili热门课程记录）-Toy模板网

这篇具有很好参考价值的文章主要介绍了爬虫（bilibili热门课程记录）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

什么是爬虫？程序蜘蛛，沿着互联网获取相关信息，收集目标信息。

一、python环境安装

1、先从Download Python | Python.org中下载最新版本的python解释器

2、再从Download PyCharm: Python IDE for Professional Developers by JetBrains中下载community版本的pycharm（免费且够用）

pycharm安装中文插件（安装后重启pycharm即可）

爬虫（bilibili热门课程记录）,爬虫

3、如果向博主一样需要直接打开文件运行，可能需要添加一下解释器

爬虫（bilibili热门课程记录）,爬虫

二爬虫的流程

1、获取网页内容（浏览器会将内容渲染成更直观的页面，而程序获得的网页是一串代码）

http请求（python request实现）

2、解析网页内容（在全面的内容中把想要的数据提取出来）

html格式（python Beautiful Soup库）

3、储存或分析数据

注意事项

1、请求数量和频率不要太高（无异于DDoS攻击）

2、有反爬限制（例如验证码）就不要强行突破

爬虫（bilibili热门课程记录）,爬虫

三、什么事HTTP请求和响应

HTTP（Hypertext Transfer Protocol超文本传输协议）

HTTP请求

GET方法：获得数据

POST方法：创建数据

七、什么是HTML网页结构

网页三大要素：

（1）HTML定义网页的结构和信息（爬虫最需要关心的）

（2）CSS 定义网页的样式 //网站背景样式

（3）JavaScript 定义用户和网页的交互逻辑

<!DOCTYPE HTML>
<html>
    <body>
        <h1>这是一个标题</h1>
        <p>这是一段文字这是一段文字这是一段文字<p>
    </body>
<!html>

显示网页源代码

mac用户先在safari高级选项中设置，然后在开发中打开

爬虫（bilibili热门课程记录）,爬虫

七、HTML常见标签

7.1 标题数字越小，字号越大

<h1> 这是一个一级标题 </h1>
<h2> 这是一个二级标题 </h2>
<h3> 这是一个三级标题 </h3>
<h4> 这是一个四级标题 </h4>
<h5> 这是一个五级标题 </h5>
<h6> 这是一个六级标题 </h6>

7.2 文本段落

<p>给岁月<br>以文明</p>
<p>而不是给文明以岁月</p>
<br>   //是强制换行
<b> </b> //加粗
<i> </i> //斜体
<u> </u> //下划线
<img src="链接" width=“500px”> //图片
<a href="https://...">我的主页</a> //超链接

7.3 容器

爬虫（bilibili热门课程记录）,爬虫

7.4 有序列表ordered list/无序列表unordered list

<ol> //有序列表
    <li>语文</li>
    <li>数学</li>
    <li>英语</li>
</ol>

<ul> //无序列表
    <li>语文</li>
    <li>数学</li>
    <li>英语</li>
</ul>

7.5 表格行

爬虫（bilibili热门课程记录）,爬虫

7.6 class属性

爬虫（bilibili热门课程记录）,爬虫文章来源地址https://www.toymoban.com/news/detail-677631.html

到了这里，关于爬虫（bilibili热门课程记录）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

爬虫（bilibili热门课程记录）

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2