python爬虫——抓取表格pandas当爬虫用超简单

这篇具有很好参考价值的文章主要介绍了python爬虫——抓取表格pandas当爬虫用超简单。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

pandas还能当爬虫用,你敢信吗?而且超级简单,两行代码就趴下来

只要想提取的表格是属于<table 标签内,就可以使用pd.read_html(),它可以将网页上的表格都抓取下来,并以DataFrame的形式装在一个列表中返回。

例子:
比如这个基金网站,想趴下基金的持仓股表格,
http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml
python爬虫——抓取表格pandas当爬虫用超简单,python,爬虫,pandas

首先F12,页面元素点击表格内容,发现最上面的层级是<table,那么就可以用pandas直接抓!

python爬虫——抓取表格pandas当爬虫用超简单,python,爬虫,pandas
代码如下:

import pandas as pd
df = pd.DataFrame()
for i in range(6):
    url = 'http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml?p={page}'.format(page=i+1)
    df = pd.concat([df,pd.read_html(url)[0]])
    print("第{page}页完成~".format(page=i+1))
df.to_csv('D:\\data.csv', encoding=gbk, index=0) #保存地址

就看到保存的CSV文件了
python爬虫——抓取表格pandas当爬虫用超简单,python,爬虫,pandas
搞定。。!是不是超级简单,记得点个赞哦!文章来源地址https://www.toymoban.com/news/detail-819402.html

到了这里,关于python爬虫——抓取表格pandas当爬虫用超简单的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python 教学 | Pandas 表格数据行列变换

    目录 Part1前言 Part2行、列的增加和删除 (一)增加列(字段) (1)在表格尾端添加一列 (2)通过计算得到新字段 (3)指定位置插入字段 (二) 删除列 (三) 增加行 (四) 删除行 Part3表格转置 Part4数据展开与合并 (一) 多行合并为一行 (二) 一行展开为多行 Part5总结

    2024年02月08日
    浏览(28)
  • python爬虫——怎么抓取职位信息

    目录 背景 为什么要抓取职位信息 怎么抓取职位信息 代码示例 被反爬怎么办 使用代理IP进行爬取 总结 高考刚结束,马上又到了大学生毕业的时候了,各大厂也开始了一波招工潮了,想知道大厂或竞争对手都招些什么人,有什么需求,于是打算爬点职位信息参考下。 抓取职

    2024年02月09日
    浏览(31)
  • Python网络爬虫-WebSocket数据抓取

    目录 前言 1、WebSocket请求的分析通常涉及以下几个方面: 2、利用WebSocket爬取数据 总结 最后,创作不易!非常感谢大家的关注、点赞、评论啦!谢谢三连哦!好人好运连连,学习进步!工作顺利哦!  博主介绍:✌专注于前后端、机器学习、人工智能应用领域开发的优质创作

    2024年04月27日
    浏览(25)
  • 【Python】【进阶篇】五、Python爬虫的抓取网页

    Python 爬虫应用案例:爬取目标的网页,并将其保存到本地。 对要编写的爬虫程序进行分析,可以简单分为为以下三个部分: 目标 url 地址 发送请求 将响应数据保存至本地 明确逻辑后,我们就可以正式编写爬虫程序了。 在这里我们使用标准库 urllib 库来编写爬虫,导入所需

    2023年04月10日
    浏览(31)
  • 使用Python进行Web抓取和爬虫

    Web抓取和爬虫技术是现代互联网应用中不可或缺的一部分。它们可以帮助我们自动收集和处理大量的网页内容,从而提取有价值的信息。Python是一种强大的编程语言,拥有丰富的第三方库和框架,使得在Python中进行Web抓取和爬虫编程变得非常简单和高效。 本文将从以下几个方

    2024年02月22日
    浏览(32)
  • 【爬虫实践】使用Python从网站抓取数据

            本周我不得不为客户抓取一个网站。我意识到我做得如此自然和迅速,分享它会很有用,这样你也可以掌握这门艺术。 【免责声明:本文展示了我的抓取做法,如果您有更多相关做法请在评论中分享】 确定您的目标:一个简单的 html 网站 在 Python 中设计抓取方案

    2024年02月14日
    浏览(31)
  • 如何使用 Python 爬虫抓取动态网页数据

    随着 Web 技术的不断发展,越来越多的网站采用了动态网页技术,这使得传统的静态网页爬虫变得无能为力。本文将介绍如何使用 Python 爬虫抓取动态网页数据,包括分析动态网页、模拟用户行为、使用 Selenium 等技术。 在进行动态网页爬取之前,我们需要先了解动态网页和静

    2023年04月24日
    浏览(48)
  • Day:006(2 ) | Python爬虫:高效数据抓取的编程技术(爬虫工具)

    窗口的定位: 对于一个现代的web应用,经常会出现框架(frame) 或窗口(window)的应用,这也就给我们的定位带来了一个难题。 有时候我们定位一个元素,定位器没有问题,但一直定位不了,这时候就要检查这个元素是否在一个frame中,seelnium webdriver提供了一个switch_to_fram

    2024年04月12日
    浏览(29)
  • Day:006(3 ) | Python爬虫:高效数据抓取的编程技术(爬虫工具)

            有时候我们需要控制页面滚动条上的滚动条,但滚动条并非页面上的元素,这个时候就需要借助js是来进行操作。 一般用到操作滚动条的会两个场景: 要操作的页面元素不在当前页面范围,无法进行操作,需要拖动滚动条 注册时的法律条文需要阅读,判断用户是

    2024年04月16日
    浏览(36)
  • Python爬虫:抓取表情包的下载链接

    1. 前言 最近发现了一个提供表情包的网址,觉得上面的内容不错,于是就考虑用Python爬虫获取上面表情包的下载链接。整体而言,实现这个挺简单的,就是找到提供表情包json数据的api接口即可,接口中没有任何加密操作。网址为:表情包 2. 具体实现 还是通过搜索功能,找到

    2024年02月13日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包