java 中开源的html解析库Jsoup 简单例子

这篇具有很好参考价值的文章主要介绍了java 中开源的html解析库Jsoup 简单例子。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

        下面是一个使用Jsoup库解析HTML的简单Java例子。这个例子展示了如何使用Jsoup从一个HTML字符串中提取数据。
        首先,确保你已经将Jsoup作为依赖项添加到你的项目中。如果你使用的是Maven,可以在`pom.xml`文件中添加以下依赖:
        

<dependencies>
    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.14.3</version> <!-- 请检查最新版本 -->
    </dependency>
</dependencies>


        
然后,你可以使用以下Java代码来解析HTML:
 

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JsoupExample {
    public static void main(String[] args) {
        String html = "<html><head><title>Sample Title</title></head>"
                + "<body><p>Sample Content</p><div class='links'><a href='https://www.example1.com'>Example1</a>"
                + "<a href='https://www.example2.com'>Example2</a></div></body></html>";

        Document doc = Jsoup.parse(html);

        // 获取标题
        String title = doc.title();
        System.out.println("Title: " + title);

        // 获取所有链接
        Elements links = doc.select("a[href]");
        for (Element link : links) {
            System.out.println("Link: " + link.attr("href"));
            System.out.println("Text: " + link.text());
        }

        // 获取具有特定类的元素
        Elements divLinks = doc.select("div.links");
        for (Element div : divLinks) {
            System.out.println("Div Class: " + div.className());
            // 可以进一步操作div元素
        }
    }
}

        在这个例子中,我们首先创建了一个包含HTML内容的字符串。然后,我们使用Jsoup.parse()方法来解析这个字符串,并得到了一个Document对象,它可以代表整个HTML文档。
        接着,我们使用Document对象的title()方法来获取文档的标题。使用select()方法,我们可以通过CSS选择器来选择和提取特定的元素。在这个例子中,我们提取了所有<a>标签的href属性和文本内容,以及具有links类的<div>标签。
        这个例子展示了Jsoup的基本用法,包括HTML解析、选择元素和提取属性。Jsoup还有很多其他功能,比如处理实时的HTML文档、修改DOM结构、清理HTML等。文章来源地址https://www.toymoban.com/news/detail-835872.html

到了这里,关于java 中开源的html解析库Jsoup 简单例子的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 开源Excel 处理工具库MyExcel介绍以及简单例子

            MyExcel是一个开源的Java库,用于简化Excel文件的处理。它提供了一种简单、高效的方式来读写Excel文件,支持多种格式,包括XLS、XLSX和CSV。MyExcel的设计目标是易于使用,同时提供足够的灵活性来处理复杂的Excel操作。         主要特点 - **简单易用**:MyExcel提供

    2024年02月22日
    浏览(32)
  • 【Java】一个简单的接口例子(帮助理解接口+多态)

    要求: 请实现笔记本电脑使用USB 鼠标、 USB 键盘的例子 1. USB 接口:包含打开设备、关闭设备功能 2. 笔记本类:包含开机功能、关机功能、使用 USB 设备功能 3. 鼠标类:实现 USB 接口,并具备点击功能 4. 键盘类:实现 USB 接口,并具备输入功能 (不需要具体实现,给出框架即

    2024年02月16日
    浏览(33)
  • Jsoup爬取简单信息

    注意版本一定是1.15.3,1.15.4可能无法获取信息 先找到豆瓣图书网址 豆瓣 先找到整个布局的部分,list-col2,里面存储着相应的元素标签 所以document的select标签就是ul.list-col2 li,意思是选择ul里面标签list-col2,然后选择里面的li li里面分成两个部分,包含cover和info,我这里取出

    2024年02月13日
    浏览(34)
  • ​html.parser --- 简单的 HTML 和 XHTML 解析器​

    源代码:  Lib/html/parser.py 这个模块定义了一个 HTMLParser 类,为 HTML(超文本标记语言)和 XHTML 文本文件解析提供基础。 class  html.parser.HTMLParser( * ,  convert_charrefs=True ) 创建一个能解析无效标记的解析器实例。 如果  convert_charrefs  为  True  (默认值),则所有字符引用(  scr

    2024年02月04日
    浏览(29)
  • 小程序扫描二维码获取网址,通过Jsoup进行解析

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 文章目录 前言 一、Jsoup是什么? 二、使用步骤 1.引入库 2.读入数据 总结 vx开发小程序使用扫一扫时不同二维码展示的东西不一样,需要进行解析 提示:以下是本篇文章正文内容,下面案例可供参考

    2024年02月12日
    浏览(32)
  • java解析html

    html 在浏览器使用js可以很简单的解析出来,获取自己所需要的内容或者值。 在Java代码里我们可以使用: 来解析html,来获取需要的内容或者值 来个示例: 输出结果:

    2024年02月13日
    浏览(23)
  • Java导入Jsoup库做一个有趣的爬虫项目

    Jsoup库是一款Java的HTML解析器,可用于从网络或本地文件中获取HTML文档并解析其中的数据。它可以模拟浏览器的行为,获取网页中的数据,是Java爬虫中常用的工具之一。与浏览器相比,Jsoup库的主要区别在于它不会执行JavaScript代码,因此无法获取通过JavaScript生成的内容。 使

    2024年02月06日
    浏览(39)
  • java使用htmlunit + jsoup 爬网站图片案例(爬虫学习)

    该文章用于自己学习爬虫使用 目的: 从百度图片中搜索\\\"风景\\\"并下载图片到本地 思路: 使用htmlunit进行模拟用户操作, 并使用jsoup对数据进行解析,获取到需要的数据后,再下载到本地保存 htmlunit官网 jsoup官网 使用谷歌浏览器打开百度图片网站 https://image.baidu.com 输入\\\"风景\\\", 点击

    2024年02月15日
    浏览(30)
  • java爬虫(jsoup)如何设置HTTP代理ip爬数据

    目录 前言 什么是HTTP代理IP 使用Jsoup设置HTTP代理IP的步骤 1. 导入Jsoup依赖 2. 创建HttpProxy类 3. 设置代理服务器 4. 使用Jsoup进行爬取 结论 在Java中使用Jsoup进行网络爬虫操作时,有时需要使用HTTP代理IP来爬取数据。本文将介绍如何使用Jsoup设置HTTP代理IP进行爬取,并提供相关代码

    2024年01月21日
    浏览(44)
  • 探索 Java 网络爬虫:Jsoup、HtmlUnit 与 WebMagic 的比较分析

    在当今信息爆炸的时代,网络数据的获取和处理变得至关重要。对于 Java 开发者而言,掌握高效的网页抓取技术是提升数据处理能力的关键。本文将深入探讨三款广受欢迎的 Java 网页抓取工具:Jsoup、HtmlUnit 和 WebMagic,分析它们的功能特点、优势以及适用场景,以助开发者选

    2024年04月29日
    浏览(22)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包