java 爬虫 获取<ul>标签下<li>标签下的内容

这篇具有很好参考价值的文章主要介绍了java 爬虫 获取<ul>标签下<li>标签下的内容。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 网页内容 all 里面 --> ul -> li -> 指定div

<div class="all">
<ul>
    <li class="text">
        <div class="title">
            公告
        </div>
        <div class="date">
            2023-07-06
        </div>
    </li>
    <li class="text">
        <div class="title">
            公告
        </div>
        <div class="date">
            2023-07-05
        </div>
    </li>
</ul>
</div>

2 完整代码 将每条数据设置属性 存入map 中 再将map 存入list中文章来源地址https://www.toymoban.com/news/detail-600387.html

public static void main(String[] args) {
    String url = "https://www.xxx.com";
    try {

     // 创建一个 List,用于存储多个 Map
      List<Map<String, Object>> dataList = new ArrayList<>();

      // Document document = Jsoup.connect(url).get(); // 获取该网页的文档对象

      // 创建连接并设置请求头
      Connection connection = Jsoup.connect(url);
      connection.userAgent(
          "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36");
      connection.header("Accept-Language", "en-US,en;q=0.9");

      // 发起 HTTP 请求获取页面内容
      Document document = connection.get();

      // 选择具有 class 为 "all" 的 <div> 元素
      Element divElement = document.selectFirst("div.all");
      // 选择所有的 <ul> 元素
      Elements ulElements = divElement.select("ul");

      // 遍历每个 <ul> 元素

      for (Element ulElement : ulElements) {
        // 选择当前 <ul> 元素下的所有 <li> 元素
        Elements liElements = ulElement.select("li");

        // 遍历每个 <li> 元素并获取文字内容
        for (Element liElement : liElements) {
          // 获取标题和日期的元素
          Element titleElement = liElement.selectFirst("div.title");
          Element dateElement = liElement.selectFirst("div.date");

          // 获取标题和日期的文本内容
          String title = titleElement.text();
          String date = dateElement.text();

          // 创建一个 Map,用于存储属性
            Map<String, Object> item = new HashMap<>();

            // 添加属性
            item.put("title", title);
            item.put("date", date);

            // 将 Map 添加到 List 中
            dataList.add(item);
        }
       
      }
      // 打印 Map 中的内容

      System.out.println(dataList);
    } catch (IOException e) {
      e.printStackTrace();
    }

  }

    


到了这里,关于java 爬虫 获取<ul>标签下<li>标签下的内容的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 以对象的方式访问html中的标签,比正则表达式更好用的方式获取html中的内容,linq方式直接获取所有的链接,更加先进的c#版本爬虫开源库

    这是我本人自己写的一个开源库,现已经发布到nuget,可以直接在vs的nuget包管理中搜索到,或者可以到nuget官网下载:https://www.nuget.org/packages/ZmjConvert/,也可以到我的个人网站上下载源码:https://www.zhaimaojun.cn/P/C%23%e6%a0%87%e7%ad%be%e7%b1%bb%e6%96%87%e6%9c%ac%e5%ba%8f%e5%88%97%e5%8c%96%e5%ba%9

    2024年03月15日
    浏览(55)
  • java 处理常量字符串过长 & springboot 项目读取 resouces 文件夹下的文件内容

    项目里面有一长串的加密字符串(最长的万多个字符),需要拼接作为参数发送给第三方。 如果我们使用 枚举 定义的话,idea 编译的时候就会出现编译报错 网上还有一个说法,说是编译器问题,修改 idea 工具的编译为 eclipse 即可。 但是结果我仍然不满意,所以我决定把他放在

    2023年04月13日
    浏览(118)
  • HTML <li> 标签

    (请在页面底部查看更多实例) 元素 Chrome IE Firefox Safari Opera li Yes Yes Yes Yes Yes 所有主流浏览器都支持 li 标签。 li 标签定义列表项目。 li 标签可用在有序列表 (ol) 和无序列表 (ul) 中。 在 HTML 4.01 中,li 元素的 \\\"type\\\" 和 \\\"value\\\" 属性是不被赞成使用的。 在 XHTML 1.0 Strict DTD 中,

    2024年02月13日
    浏览(41)
  • selenium无法获取到标签的文本内容(text)的解决方法

    在我们使用selenium进行抓取网页的时候,可能有的时候会抓取不到内容。 例如:driver.find_element_by_xxx().text() 为空的解决办法    在用driver.find_element_by_xxx().text()获取文本的时候,得到的文本为空, 那么当前定位的元素可能被隐藏了。 我们先查看当前的元素的原始代码   我们

    2023年04月11日
    浏览(43)
  • Python os.listdir方法(获取文件夹目录下的内容)

    os.listdir 方法。参数为文件夹路径, 可以返回文件夹下的所有子文件、文件名称, 但不能返回子文件夹下的文件

    2024年02月14日
    浏览(60)
  • javaScript和jQuery获取、设置textarea标签的内容(常见问题)

    昨天晚上在写代码的时候前端遇到一个bug,在js取值textarea中,我使用了getElementById方法对textarea标签取值,但不论如何取值,始终无法成功取到页面上输入的值并进行Ajax请求,一开始以为是ajax与后端接口之间数据传输出问题了,后来经过排查,就是对于textarea标签取值失败的

    2024年02月05日
    浏览(43)
  • 【正则表达式】获取html代码文本内所有<script>标签内容

    一. 背景 之前要对学生提交的html代码进行检查,在获取了学生提交的html代码文本后,需要使用正则去截取内部的script标签内容做进一步的检查。 假设得到html文本如下(不是代码),我们要得到全部的script标签内容并提取出来。 看上去不难,但是实际操作起来有一定的坑,

    2024年01月17日
    浏览(51)
  • css新闻列表案例(li标签和a标签各自控制一个背景图片)

    !DOCTYPE html html lang=\\\"en\\\" head   meta charset=\\\"UTF-8\\\"   meta http-equiv=\\\"X-UA-Compatible\\\" content=\\\"IE=edge\\\"   meta name=\\\"viewport\\\" content=\\\"width=device-width, initial-scale=1.0\\\"   title新闻列表/title   style     * {       margin: 0;       padding: 0;       box-sizing: border-box;     }     li {       list-style: none;     }  

    2024年01月19日
    浏览(49)
  • Python爬虫基础:使用requests模块获取网页内容

    了解如何使用Python中的requests模块进行网页内容获取,包括获取网页步骤、代码实现、状态码查看、提取信息等。

    2024年02月22日
    浏览(88)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包