用python获取一个网页里面表格的数据

这篇具有很好参考价值的文章主要介绍了用python获取一个网页里面表格的数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

demo1

比如我想要这个网址  https://zh.wikipedia.org/zh-cn/ISO_3166-1 下的国际地区代码列表

python爬取网页表格数据,常见的json文件,python

 第一步F12查看这个部分的结构。结构如下 是一个table>tr>td

python爬取网页表格数据,常见的json文件,python

py代码如下

import requests
from bs4 import BeautifulSoup

url = "https://zh.wikipedia.org/zh-cn/ISO_3166-1"


# 发送请求并获取响应内容
response = requests.get(url)
html_content = response.text

# 使用BeautifulSoup库解析HTML内容
soup = BeautifulSoup(html_content, 'html.parser')

# 查找表格元素
table = soup.find('table')

# 获取所有行
rows = table.find_all('tr')

# 创建空列表来存储数据
data = []

# 遍历所有行,并将每行的所有单元格的文本添加到列表中
for row in rows:
    cells = row.find_all('td')
    if len(cells) > 1:
        row_data = [cell.text.strip() for cell in cells]
        # data.append(row_data)
        data.append({
            "en": row_data[0], 
            "short": row_data[1],  
            "shortLen3": row_data[2],  
            "numberCode": row_data[3],  
            "iso": row_data[4],  
            "name": row_data[5],  
            "isTndependent": row_data[6],  
        })


# 输出列表
print(data)

返回的结构是这样的

[
    {
        "en": "Afghanistan",
        "short": "AF",
        "shortLen3": "AFG",
        "numberCode": "004",
        "iso": "ISO 3166-2:AF",
        "name": "阿富汗",
        "isTndependent": "是"
    },
    {
        "en": "Åland Islands",
        "short": "AX",
        "shortLen3": "ALA",
        "numberCode": "248",
        "iso": "ISO 3166-2:AX",
        "name": "奥兰",
        "isTndependent": "否"
    },
    ....省略其他
]

demo2

下面网址是国际电话区号列表

https://zh.wikivoyage.org/zh-cn/%E5%9B%BD%E9%99%85%E7%94%B5%E8%AF%9D%E5%8C%BA%E5%8F%B7%E5%88%97%E8%A1%A8

 同样的方法查看结构python爬取网页表格数据,常见的json文件,python

py代码如下

import requests
from bs4 import BeautifulSoup

url = "https://zh.wikivoyage.org/zh-cn/%E5%9B%BD%E9%99%85%E7%94%B5%E8%AF%9D%E5%8C%BA%E5%8F%B7%E5%88%97%E8%A1%A8"

# 发送请求并获取响应内容
response = requests.get(url)
html_content = response.text

# 使用BeautifulSoup库解析HTML内容
soup = BeautifulSoup(html_content, 'html.parser')

# 查找表格元素
table = soup.find('table')

# 获取所有ul
rows = table.find_all('ul')

# 获取所有li
lis=table.find_all('li')

# 创建空列表来存储数据
data = []

# 遍历所有li,并将每行的所有单元格的文本添加到列表中
# for li in lis:
#     if len(li) > 1:
#          data.append(li.text.strip())

# 简写方法
data = [li.text.strip() for li in lis]

# 输出列表
print(data)

返回的结果是这样的

['也门 967', '赞比亚 260', '津巴布韦 263',.....省略]

具体应用根据自己想要的数据格式获取就行文章来源地址https://www.toymoban.com/news/detail-538801.html

到了这里,关于用python获取一个网页里面表格的数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python通过selenium爬取网页信息,python获取浏览器请求内容,控制已经打开的浏览器

    背景:通过python中直接get或者urlopen打开一些有延迟加载数据的网页,会抓取不到部分信息。 1. 命令行打开chrome,并开启调试端口 (前提,找到chrome安装目录,找到chrome.exe所在路径,添加到环境变量中,例如我的是C:Program FilesGoogleChromeApplication) remote-debugging-port指定远程调试

    2024年02月16日
    浏览(55)
  • Python网页爬虫爬取起点小说——re解析网页数据

    !!注意:我们获取到的网页响应数据,可能会与网页源代码中呈现的格式不同。因为有些网页文件是用JavaScript加载的,浏览器会自动将其解析成html文档格式,而我们获取到的内容是JavaScript格式的文档。所以获取到响应数据之后先要查看内容是否与网页源码中的一致,不一

    2024年02月04日
    浏览(42)
  • Python小姿势 - # 如何使用Python爬取网页数据

    如何使用Python爬取网页数据 今天我们来学习一下如何使用Python来爬取网页数据。 首先,我们需要准备一个空白的文件,在文件中输入以下代码: ``` import requests url = \\\'http://www.baidu.com\\\' r = requests.get(url) print(r.text) ``` 上面的代码中,我们首先导入了 requests 库,然后声明了一个

    2024年02月04日
    浏览(36)
  • Python实战:用Selenium爬取网页数据

    网络爬虫是Python编程中一个非常有用的技巧,它可以让您自动获取网页上的数据。在本文中,我们将介绍如何使用Selenium库来爬取网页数据,特别是那些需要模拟用户交互的动态网页。 Selenium是一个自动化测试工具,它可以模拟用户在浏览器中的操作,比如点击按钮、填写表

    2024年02月06日
    浏览(37)
  • 从一个word里面复制表格到另一个word时,表格变形的问题

    复制过来保留源格式,检查段落、页边距里面的格式都和原始word一致后,仍然表格变形。 这时点页边距-自定义页边距-文档网格 看字符数是不是一致的

    2024年03月10日
    浏览(61)
  • Python 爬虫:如何用 BeautifulSoup 爬取网页数据

    在网络时代,数据是最宝贵的资源之一。而爬虫技术就是一种获取数据的重要手段。Python 作为一门高效、易学、易用的编程语言,自然成为了爬虫技术的首选语言之一。而 BeautifulSoup 则是 Python 中最常用的爬虫库之一,它能够帮助我们快速、简单地解析 HTML 和 XML 文档,从而

    2024年02月04日
    浏览(39)
  • Python网络爬虫逆向分析爬取动态网页、使用Selenium库爬取动态网页、​编辑将数据存储入MongoDB数据库

    目录 逆向分析爬取动态网页 了解静态网页和动态网页区别 1.判断静态网页  2.判断动态网页  逆向分析爬取动态网页 使用Selenium库爬取动态网页 安装Selenium库以及下载浏览器补丁 页面等待  页面操作 1.填充表单 2.执行JavaScript 元素选取 Selenium库的find_element的语法使用格式如下

    2024年02月15日
    浏览(77)
  • Python爬虫|使用Selenium轻松爬取网页数据

    1. 什么是selenium? Selenium是一个用于Web应用程序自动化测试工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作浏览器一样。支持的浏览器包括IE,Firefox,Safari,Chrome等。 Selenium可以驱动浏览器自动执行自定义好的逻辑代码,也就是可以通过代码完全模拟成人类使用

    2024年02月04日
    浏览(39)
  • Python爬虫:为什么你爬取不到网页数据

    前言: 之前小编写了一篇关于爬虫为什么爬取不到数据文章(文章链接为:https://liuze.blog.csdn.net/article/details/105965562),但是当时小编也是胡乱编写的,其实里面有很多问题的,现在小编重新发布一篇关于爬虫爬取不到数据文章,希望各位读者更加了解爬虫。 1. 最基础的爬虫

    2024年02月05日
    浏览(78)
  • 华纳云:Python中如何使用Selenium爬取网页数据

    这篇文章主要介绍“Python中如何使用Selenium爬取网页数据”,在日常操作中,相信很多人在Python中如何使用Selenium爬取网页数据问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python中如何使用Selenium爬取网页数据”的疑惑有所帮助!接下

    2024年02月07日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包