Java爬虫Selenium+Java+ChromeDriver【抓取百度信息】

这篇具有很好参考价值的文章主要介绍了Java爬虫Selenium+Java+ChromeDriver【抓取百度信息】。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、爬虫工具

  • selenium
    是一个模拟浏览器操作的工具,背后有google 维护源代码,支持全部主流浏览器,支持主流的编程语言,包括:java,Python,C#,PHP,Ruby,等,在本项目上使用的Java语言。
    官网:https://www.selenium.dev/documentation/
    chromedriver java,Java[精选]一篇精通系列【头脑风暴】,爬虫,java,爬虫,selenium

  • ChromeDriver
    使用selenium是需要浏览器的配合, chromeDriver,是谷歌浏览器的一个驱动, selenium借助chromeDriver,实现模拟对浏览器的各种操作。·

二、环境搭建

1、下载chromeDriver

http://chromedriver.storage.googleapis.com/index.html

下载的驱动要和自己安装的谷歌浏览器版本相互匹配
chromedriver java,Java[精选]一篇精通系列【头脑风暴】,爬虫,java,爬虫,selenium

解压以后找个位置放一下
chromedriver java,Java[精选]一篇精通系列【头脑风暴】,爬虫,java,爬虫,selenium

2、创建idea项目

chromedriver java,Java[精选]一篇精通系列【头脑风暴】,爬虫,java,爬虫,selenium
chromedriver java,Java[精选]一篇精通系列【头脑风暴】,爬虫,java,爬虫,selenium
chromedriver java,Java[精选]一篇精通系列【头脑风暴】,爬虫,java,爬虫,selenium
chromedriver java,Java[精选]一篇精通系列【头脑风暴】,爬虫,java,爬虫,selenium

3、导入maven依赖

chromedriver java,Java[精选]一篇精通系列【头脑风暴】,爬虫,java,爬虫,selenium

	<dependencies>
        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
            <version>3.141.59</version>
        </dependency>
        <dependency>
            <groupId>com.google.guava</groupId>
            <artifactId>guava</artifactId>
            <version>23.0</version>
        </dependency>
        <dependency>
            <groupId>com.google.code.gson</groupId>
            <artifactId>gson</artifactId>
            <version>2.8.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi</artifactId>
            <version>3.14</version>
        </dependency>
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml</artifactId>
            <version>3.14</version>
        </dependency>
        <dependency>
            <groupId>commons-io</groupId>
            <artifactId>commons-io</artifactId>
            <version>2.8.0</version>
        </dependency>
    </dependencies>

4、编写测试类

chromedriver java,Java[精选]一篇精通系列【头脑风暴】,爬虫,java,爬虫,selenium

三、运行案例

案例:百度搜索王者荣耀,
将搜索出的内容列表保存成excel文件,
内容主要包含内容名称和url

package com.xw;

import org.openqa.selenium.By;
import org.openqa.selenium.JavascriptExecutor;
import org.openqa.selenium.Keys;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.interactions.Actions;

import java.util.List;
import java.util.concurrent.TimeUnit;

public class Test {
    public static void main(String[] args) {
        //加载谷歌浏览器驱动
        System.getProperties().setProperty("webdriver.chrome.driver","D:\\ProgramSoftware\\chromedriver_win32\\chromedriver_win32 (2)\\chromedriver.exe");
        ChromeDriver chromeDriver = new ChromeDriver();
        try {
            Thread.sleep(3000);
        }catch (Exception e){
            e.printStackTrace();
        }
        //设置访问地址
        String url = "https://www.baidu.com/";
        chromeDriver.get(url);
        //在id为kw的输入框当中输入内容
        WebElement kw = chromeDriver.findElement(By.id("kw"));
        kw.sendKeys("王者荣耀");
        //在id为su的按钮上点击
        WebElement su = chromeDriver.findElement(By.id("su"));
        su.click();
        try {
            //设置等待
            chromeDriver.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);
        }catch (Exception e){
            e.printStackTrace();
        }
        //找到搜索后左边的内容
        WebElement content_left = chromeDriver.findElement(By.id("content_left"));
        List<WebElement> elements = content_left.findElements(By.cssSelector(".c-container"));
        //遍历出来需要的元素和内容
        for (WebElement page : elements) {
            WebElement h3_a = page.findElement(By.cssSelector("h3 a"));
            String text = h3_a.getText();
            String href = h3_a.getAttribute("href");
            System.out.println(text);
            System.out.println(href);
            WebElement a = page.findElement(By.cssSelector("a"));
            String hrefa =  a.getAttribute("href");
            System.out.println(hrefa);
        }
        try {
            Thread.sleep(5000);
        }catch (Exception e){
            e.printStackTrace();
        }
        chromeDriver.quit();
    }

}

chromedriver java,Java[精选]一篇精通系列【头脑风暴】,爬虫,java,爬虫,selenium
运行成功
chromedriver java,Java[精选]一篇精通系列【头脑风暴】,爬虫,java,爬虫,selenium
chromedriver java,Java[精选]一篇精通系列【头脑风暴】,爬虫,java,爬虫,selenium文章来源地址https://www.toymoban.com/news/detail-787918.html

到了这里,关于Java爬虫Selenium+Java+ChromeDriver【抓取百度信息】的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • chromedriver+Selenium+springboot+Java实现后端截图

    chromedriver这种方法实现截图,依赖服务器端的谷歌浏览器软件,需要在服务器端下载谷歌浏览器。 Windows服务器说明 1.下载谷歌浏览器 2.根据第一步下载的谷歌浏览器版本,下载chromedriver,可以在这个页面找到和版本相近的版本去下载https://googlechromelabs.github.io/chrome-for-testin

    2024年01月21日
    浏览(50)
  • 【Java-Crawler】爬取动态页面(WebMagic、Selenium、ChromeDriver)

    在上一篇说WebMagic框架的时候( 一文学会WebMagic爬虫框架),提到了WebMagic仅能解析静态页面,满足不了小编的爬虫需求了,小编现在要爬取动态的页面,需要爬取JavaScript被解析后的页面了。 “多的不说,少的不辣”,先直接给出本篇博客需要的资源和依赖。 根据GPT的答案所

    2024年02月13日
    浏览(43)
  • CentOS7 启动谷歌浏览器 java+Selenium+chrome+chromedriver

    前言:自己想使用该技术实现自动化抓取音乐,目前在window上运行成功,需要在Linux Centos服务上跑,配置上出现了许多问题,特此记录。 参考文档:CentOS7 安装Selenium+chrome+chromedriver+java_远方丿的博客-CSDN博客  我们明确的是,在window上是安装了chrome和自带了chromeDriver的,之所

    2024年02月11日
    浏览(107)
  • selenium 更新 chromedriver 驱动

    selenium 要想使用 chromedriver 驱动,必须版本要正确 在浏览器的导航栏中输入 chrome://version 可以看到当前浏览器版本为 98.0.4758.82 驱动下载地址:http://chromedriver.storage.googleapis.com/index.html 找到对应版本的文件夹进入,点击自己系统的进行下载 其中包含了 linux 、 mac 、 windows 多版

    2024年02月11日
    浏览(43)
  • 【selenium--Chromedriver的简单安装】

    selenium--Chromedriver的简单安装 刚开始学习selenium UI自动化测试,写一个小小的笔记( 安装教程应该也算笔记ba ) 首先了解什么是自动化测试,根据我极为浅显的学习理解,就是以机器代替人工,比如说用某些程序来代替人工测试。(好像说了又好像没说,大概概念是这样吧)

    2024年02月08日
    浏览(31)
  • 自动更新Selenium驱动chromedriver

    由于谷歌游览器经常自动更新导致selenium驱动失效需要重新下载,如何让代码自动更新selenium驱动的方法呢? selenium连接谷歌游览器抛出异常时,会展示当前谷歌游览器的版本信息,我们可以到selenium驱动下载的网站获取全部版本信息,然后找个一个匹配的版本进行下载并解压

    2024年02月09日
    浏览(40)
  • ChromeDriver / Selenium-server

    ChromeDriver 是一个 WebDriver 的实现,专门用于自动化控制 Google Chrome 浏览器。以下是关于 ChromeDriver 的详细说明: 定义与作用:         ChromeDriver 是一个独立的服务器程序,作为客户端库与 Google Chrome 浏览器之间的桥梁,允许对浏览器进行编程控制。         它遵循

    2024年04月17日
    浏览(25)
  • selenium 谷歌驱动(ChromeDriver)安装教程

    首先,下载与当前Chrome对应的chromedriver.exe 打开谷歌浏览器 找到帮助-关于 Google Chrome  查看版本号如果显示无法更新,可以在凌晨时分进去查看,会更容易建立连接 第二,下载chromedriver驱动包 下载地址:http://chromedriver.storage.googleapis.com/index.html 选择与自己的谷歌版本相近的

    2024年02月11日
    浏览(64)
  • 【Selenium】下载最新117版本的ChromeDriver

    用Selenium自动化Chrome网页操作,需要下载与Chrome版本配套的ChromeDriver。 Chrome经常更新,所以常常需要下载新版本的ChromeDriver,今天发现最新版本的117 Driver在我过去常去的下载站上下不到了,跑了好几个ChromeDriver的下载站,最新的都停留在114版本。 这里有最新的,选择相应系

    2024年02月06日
    浏览(101)
  • selenium安装以及chromedriver安装与环境配置

    目录 一、selenium安装 二、Chromedriver安装 1、查看谷歌版本 2、下载chromedriver​ 三、环境配置 1、将chromedriver.exe位置到path环境变量实现  2、验证Chromedriver是否安装成功 打开pycharm   如果在安装selenium出现no such option:--build-dir问题可以看我另一篇博客。 Pycharm中pip:no such option:

    2023年04月08日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包