Selenium控制已运行的Edge和Chrome浏览器——在线控制 | 人机交互(详细启动步骤和bug记录)

这篇具有很好参考价值的文章主要介绍了Selenium控制已运行的Edge和Chrome浏览器——在线控制 | 人机交互(详细启动步骤和bug记录)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


说明:本记录是在Windows系统上执行的!
起因是:博导要求统计一下国内某个领域的专家情况,统计主持国家自然科学基金的副教授和教授都有哪些大牛!
于是:本人去[NSFC]:https://kd.nsfc.cn/ 下载全部的历史基金项目书。。。。工作量太大就……半自动化实现吧!!!


前期准备

1. python Selenium库
2. Edge浏览器 或 Chrome浏览器

1. 浏览器开启远程控制指令

  1. 无论是哪种浏览器,都需要使用终端独立运行浏览器的远程调试模式。
  2. 开启方式:加入指令(–remote-debugging-port=9222 --user-data-dir=“D:\selenium\AutomationProfile”)

需要进入目标浏览器的根目录! 不然就输入全路径!

(1)Edge

.\msedge.exe --remote-debugging-port=9222 --user-data-dir=“D:\selenium\AutomationProfile”

(2)Chrome

 .\chrome.exe --remote-debugging-port=9222 --user-data-dir=“D:\selenium\AutomationProfile”

selenium启动edge

2. 执行python代码

(1)先启动浏览器后执行代码

  • 必须是先执行上述步骤,开启了浏览器的远程调试端口后,才能通过下方代码进行控制。

  • add_experimental_option("debuggerAddress", "127.0.0.1:9222") 这句话是关键!

from selenium import webdriver
from selenium.webdriver.edge.options import Options

class Test:
    def edge(self):
        edge_driver_path = executable_path=r'C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe'
        chrome_options = Options()
        # chrome_options.binary_location = edge_driver_path  #  传入驱动地址
        chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")  # "127.0.0.1:9222"其中,9222是浏览器的运行端口
        # 让浏览器带着这个配置运行
        # chrome_options.add_experimental_option('detach', True)  # 通过option参数,设置浏览器不关闭
        driver = webdriver.Edge(options=chrome_options, keep_alive=True)
        driver.implicitly_wait(10)  # 页面元素查找的等待时间
        self.driver = driver
        pass
        
    def chrome_drive(self, drive='chrome'):
        edge_driver_path = executable_path = r'D:\Program Files\Google\Chrome\Application'
        if drive == 'chrome':
            chrome_options = webdriver.ChromeOptions()
            # chrome_options.binary_location = edge_driver_path    #  传入驱动地址
            # chrome_options.add_experimental_option('detach', True)  # 通过option参数,设置浏览器不关闭
            chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")
            driver = webdriver.Chrome(options=chrome_options, keep_alive=False)
            driver.implicitly_wait(10)  # 页面元素查找的等待时间
	        self.driver = driver
	        pass

(2)通过代码启动浏览器

  • 这个时候被注释掉的 .binary_location = edge_driver_path 是关键!
  • 这种情况下,需要下载对应的驱动软件(.exe)
  • 博主在笔记本电脑上首次尝试Selenium时就下载了驱动软件!但后来在台式电脑使用相同代码时发现,压根不需要下载什么驱动软件!
  • 只需要使用终端提前启动浏览器的调试模型即可。 (这是弯路、坑)
  • 因为,如果是通过代码启动浏览器的调试模型,需要配置路径,然后保证程序关闭后浏览器依旧运行!麻烦!!!

(3)Bug问题记录

1)python可读取浏览器所有标签标题,但检索网页元素失败

  • 部分网页不支持爬取!特别是当网页开启F12的开发人选项后,会出现无法查找元素的问题。
  • 此时,关闭 “开发人选项” 即可。

2)浏览器开启程序,但python程序无法链接浏览器进行自动控制

  • 关闭原有浏览器,重新打开浏览器(需搭配命令:–remote-debugging-port=9222 --user-data-dir=“xxx folder”

3. 爬取效果

selenium启动edge

3. 完整代码共享

以下代码主要实现了:

  • 浏览器标签页的翻动和选择
  • 爬取 – 青塔网检索”国家自然科学基金项目“的作者信息,并保存到表格。
  • 爬取 – NSFC”国家自然科学基金项目“的作者信息,并保存到表格。
  • 爬取 – 国际某个领域专家的作者信息,并保存到表格。

3.1 包含Excel部分的完整代码

包含Excel部分的完整代码见:资源文件文章来源地址https://www.toymoban.com/news/detail-846453.html

3.2 爬虫部分的完整代码

import os
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
import time
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.action_chains import ActionChains

# '.\chrome.exe --remote-debugging-port=9222 --user-data-dir=“D:\selenium\AutomationProfile”             n "*" --ws --allow-insecure-unlock --nodiscover --authrpc.addr 127.0.1.2 --authrpc.port 8545'
# '.\chrome.exe --remote-debugging-port=9222 --user-data-dir=“D:\selenium\AutomationProfile”'


class Web_Browser:
    def __init__(self, drive='chrome'):
        self.driver = None
        # self.edge()
        self.chrome_drive()

    def edge(self):
        # edge_driver_path = executable_path=r'D:\Program Files\Google\Chrome\Application\chromedriver.exe'
        edge_driver_path = executable_path=r'C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe'
        chrome_options = Options()
        # chrome_options.binary_location = edge_driver_path
        # 配置浏览器
        # 添加User-Agent到Chrome选项中
        # chrome_options.add_argument("--user-agent=windows 10 Edge")
        # "127.0.0.1:9222"其中,9222是浏览器的运行端口
        chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")
        # 让浏览器带着这个配置运行
        # chrome_options.add_experimental_option('detach', True)  # 通过option参数,设置浏览器不关闭
        driver = webdriver.Edge(options=chrome_options, keep_alive=True)
        # driver = webdriver.Chrome( options=chrome_options)
        print('===================')
        # driver.get('www.baidu.com')
        driver.implicitly_wait(10)
        self.driver = driver



    def chrome_drive(self, drive='chrome'):
        edge_driver_path = executable_path = r'D:\Program Files\Google\Chrome\Application\chromedriver.exe'
        if drive == 'chrome':
            chrome_options = webdriver.ChromeOptions()
            # chrome_options.binary_location = edge_driver_path
            # chrome_options.add_experimental_option('detach', True)  # 通过option参数,设置浏览器不关闭
            chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")

            driver = webdriver.Chrome(options=chrome_options, keep_alive=False)
            self.driver = driver
            driver.implicitly_wait(10)
        self.opened_windows_dict = None
        pass

    def get_all_opened_windows(self):
        driver = self.driver
        cw = driver.current_window_handle
        res = {}
        # 获取已打开的标签页的信息
        tabs = driver.window_handles
        for t in tabs:
            driver.switch_to.window(t)
            res[str(driver.title)] = str(t)
        self.opened_windows_dict = res
        driver.switch_to.window(cw)
        print('已打开的标签页的信息:',)
        for k in res: print(f"\t{k}: {res[k]}")
        return res

    def switch_window(self, key):
        driver = self.driver
        cw = driver.current_window_handle
        # 获取已打开的标签页的信息
        tabs = driver.window_handles
        for t in tabs:
            driver.switch_to.window(t)
            if key in str(driver.title): cw = t
            break
        # driver.switch_to.window(cw)
        self.driver = driver
        pass


    def open_new_window(self, driver=None, url=None, delay_t=0.6):
        '''# 打开新标签页'''
        driver = self.driver if not driver else driver
        old_handle = driver.window_handles  # 获取已打开的标签页的信息
        # driver.find_element("body").send_keys(Keys.CONTROL + 't')  # 没有实体会报错
        # driver.execute_script("window.open('','_blank');")  # 可能被拦截
        driver.switch_to.new_window('tab')
        time.sleep(delay_t)
        if len(driver.window_handles) >len(old_handle): return True
        driver.execute_script(f"window.open('{url if url else ''}');")
        time.sleep(delay_t)
        if len(driver.window_handles) >len(old_handle): return True
        return False

    def func1(self, xlsx):
        """ 学术网 """
        for p in range(50):
            # self.switch_window('故障诊断')
            driver = self.driver
            web = driver.find_element(by=By.XPATH, value='//*[@id="search_body"]/div[2]/div[3]/div[1]/div[2]/div[1]/div[3]/div[2]/div/div[2]/div[2]/div/div')
            web1 = web.find_elements(by=By.CLASS_NAME, value='inner-content')
            print('web1 len=', len(web1))
            num = 0
            for i, w in enumerate(web1):
                try:
                    # '//*[@id="search_body"]/div[2]/div[3]/div[1]/div[2]/div[1]/div[3]/div[2]/div/div[2]/div[2]/div/div'
                    #
                    a = w.find_element(by=By.XPATH, value=f'//div[{1+i}]/div/div[2]/div[1]/div[1]/div/a/strong/span/span').text
                    try:
                        b = w.find_element(by=By.XPATH, value=f'//div[{1 + i}]/div/div[2]/div[3]/p[2]').text
                        school = str(b).split(',')
                        for s in school:
                            if 'university' in s.lower(): b = s[1:]
                    except: b = None
                    c = w.find_element(by=By.XPATH, value=f'//div[{1 + i}]/div/div[2]/div[3]/p[1]').text
                    d = None
                    e = None
                    f = None
                    try:
                        h_index = w.find_element(by=By.XPATH, value=f'//div[{1 + i}]/div/div[2]/div[2]/div/span[1]/span[3]').text
                        paper = w.find_element(by=By.XPATH, value=f'//div[{1 + i}]/div/div[2]/div[2]/div/span[2]/span[3]').text
                        cite = w.find_element(by=By.XPATH, value=f'//div[{1 + i}]/div/div[2]/div[2]/div/span[3]/span[3]').text
                        f = f"H-index: {h_index},  papers: {paper}, cites: {cite}"
                    except: pass

                    g = None
                    h = w.find_element(by=By.XPATH, value=f'//div[{1 + i}]/div/div[2]/div[1]/div[1]/div/a')
                    h = 'https://www.aminer.cn/' + h.get_attribute('href')
                    print(a, b ,c, g)
                    xlsx.input_data(a,b,c,d,e,f,g, h)
                    num += 1
                except: pass
            print('记录:', num)
            # aa = driver.find_elements(by=By.XPATH, value='//*[@id="search_body"]/div[2]/div[3]/div[1]/div[2]/div[1]/div[3]/div[2]/div/div[2]/div[3]/ul/li')
            # aa = aa[-1]
            aa = driver.find_element(by=By.CLASS_NAME, value='ant-pagination-next')
            # v = '#search_body > div.ant-tabs.ant-tabs-top.a-aminer-core-search-index-searchPageTab.ant-tabs-line.ant-tabs-no-animation > div.ant-tabs-content.ant-tabs-content-no-animated.ant-tabs-top-content > div.ant-tabs-tabpane.ant-tabs-tabpane-active > div.a-aminer-core-search-index-componentContent > div.a-aminer-core-search-c-search-component-temp-searchComponent > div.view > div:nth-child(2) > div > div:nth-child(2) > div.paginationWrap > ul > li.ant-pagination-next'
            # aa = driver.find_element(by=By.CSS_SELECTOR, value=v)
            # 创建一个ActionChains对象,用于执行鼠标动作
            action_chains = ActionChains(driver)
            # 将鼠标移动到链接元素上并点击
            action_chains.move_to_element(aa).click().perform()
            print(f'第{p+1}页 --> 第{p+2}页')
            try:
                xlsx.make_frame()
                xlsx.save_excel()
            except: pass
            time.sleep(5)
        pass

    def func2(self, xlsx=None):
        for p in range(50):
            self.switch_window('青塔')
            driver = self.driver
            web = driver.find_element(by=By.XPATH,
                                      value='//*[@id="app"]/div[2]/div[1]/div/div[2]/div[2]/div/div[2]')

            web1 = web.find_elements(by=By.CLASS_NAME, value='list-item')
            print('web1 len=', len(web1))
            num = 0
            for i, w in enumerate(web1):
                # try:
                # //*[@id="app"]/div[2]/div[1]/div/div[2]/div[2]/div/div[2]
                # '//*[@id="app"]/div[2]/div[1]/div/div[2]/div[2]/div/div[2]/div/div[2]/div[2]/div[2]/div[1]/div[2]'
                # //*[@id="app"]/div[2]/div[1]/div/div[2]/div[2]/div/div[2]/div/div[1]/div[2]/div[2]/div[1]/div[1]

                b = w.find_element(by=By.XPATH, value=f'//div[2]/div[1]/div[1]/div[2]')
                print(b)
                b = b.text
                print('b=', b)
                a = w.find_element(by=By.XPATH, value=f'//div[2]/div[2]/div[1]/div[2]').text
                print('a=', a)
                c = None
                d = None
                e = w.find_element(by=By.XPATH, value=f'//div[1]/div[1]').text
                print('e=', e)
                year = w.find_element(by=By.XPATH, value=f'//div[2]/div[2]/div[2]/div[2]').text
                money = w.find_element(by=By.XPATH, value=f'//div[2]/div[1]/div[2]/div[2]').text
                print('year=', year, 'money=', money)
                e = f"{e}, 立项: {year}, 资助: {money}"
                jijin = w.find_element(by=By.XPATH, value=f'//div[2]/div[3]/div[1]/div[2]').text
                domain = w.find_element(by=By.XPATH, value=f'//div[2]/div[3]/div[2]/div[2]').text
                print('jijin=',jijin, 'domain=', domain)
                f = f"{jijin}, 领域: {domain}"
                g = None
                h = None
                print(i, '-----------', i)
                print(a, b, c, d, e, f)
                xlsx.input_data(a, b, c, d, e, f, g, h)
                num += 1
                break
                # except: pass
            print('记录:', num)
            break
            aa = driver.find_element(by=By.XPATH, value=f'//*[@id="app"]/div[2]/div[1]/div/div[2]/div[2]/div/div[3]/button[2]')
            # 创建一个ActionChains对象,用于执行鼠标动作
            action_chains = ActionChains(driver)
            # 将鼠标移动到链接元素上并点击
            action_chains.move_to_element(aa).click().perform()
            print(f'第{p + 1}页 --> 第{p + 2}页')
            try:
                xlsx.make_frame()
                xlsx.save_excel()
            except:
                pass
            time.sleep(5)
        pass

    def func3(self, xlsx=None):
        for p in range(50):
            self.switch_window('大数据知识管理服务门户')
            driver = self.driver
            d = driver.find_element(by=By.CLASS_NAME, value='container_list_right')
            print('d==', d)
            # web = driver.find_element(by=By.XPATH,
            #                           value='//*[@id="app"]/div[1]/div[3]/div/div[3]/div[1]/div')
            web = d.find_element(by=By.XPATH, value='//div[1]/div')
            # web1 = web.find_elements(by=By.CLASS_NAME, value='list-item')
            # print('web1 len=', len(web1))
            num = 0
            for i, w2 in enumerate(range(6)):
                w = web
                try:
                    # //*[@id="app"]/div[1]/div[3]/div/div[3]/div[1]/div
                    # //*[@id="app"]/div[1]/div[3]/div/div[3]
                    # //*[@id="app"]/div[1]/div[3]/div/div[3]/div[1]/div/div[2]/div[2]/div[1]

                    b = w.find_element(by=By.XPATH, value=f'//div[{i+1}]/div[3]/div[4]/a')
                    b = b.text
                    # print('b=', b)
                    a = w.find_element(by=By.XPATH, value=f'//div[{i+1}]/div[2]/div[4]/a').text
                    # print('a=', a)
                    c = None
                    d = None
                    e = w.find_element(by=By.XPATH, value=f'//div[{i+1}]/div[1]/div[1]/p/a').text
                    # print('e=', e)
                    year = w.find_element(by=By.XPATH, value=f'//div[{i+1}]/div[3]/div[3]').text
                    money = w.find_element(by=By.XPATH, value=f'//div[{i+1}]/div[3]/div[1]').text
                    # print('year=', year, 'money=', money)
                    e = f"{e}, {year}, {money}"
                    jijin = w.find_element(by=By.XPATH, value=f'//div[{i+1}]/div[2]/div[3]').text
                    domain = w.find_element(by=By.XPATH, value=f'//div[{i+1}]/div[2]/div[1]').text
                    # print('jijin=',jijin,  domain)
                    f = f"{jijin}, {domain}"
                    g = None
                    h = None
                    print(i+1, '-----------', i+1)
                    print(a, b, c, d, e, f)
                    xlsx.input_data(a, b, c, d, e, f, g, h)
                    num += 1
                # break
                except: pass
            print('记录:', num)
            # break
            # aa = driver.find_element(by=By.CLASS_NAME, value=f'btn-next')
            # # 创建一个ActionChains对象,用于执行鼠标动作
            # action_chains = ActionChains(driver)
            # # 将鼠标移动到链接元素上并点击
            # action_chains.move_to_element(aa).click().perform()
            print(f'第{p + 1}页 --> 第{p + 2}页')
            try:
                xlsx.make_frame()
                xlsx.save_excel()
            except:
                pass
            break
            # time.sleep(5)
        pass


    def func4(self, xlsx=None, key='Google2'):
        if key == 'Google': self.switch_window('Google')
        else: self.switch_window('必应')
        driver = self.driver
        data = xlsx.read_excel()
        # print(data['姓名'])
        for i, name in enumerate(data['姓名']):
            school = data['学校'][i]
            text = f'{school}{name}是不是教授'
            print(f'search [{i+1}]:  {name} -》 ', text)
            if key == 'Google': web = driver.find_element(by=By.XPATH, value='//*[@id="APjFqb"]')
            else: web = driver.find_element(by=By.XPATH, value='//*[@id="sb_form_q"]')
            web.clear()
            web.send_keys(text)

            if key == 'Google': web = driver.find_element(by=By.XPATH, value='//*[@id="tsf"]/div[1]/div[1]/div[2]/button')
            else: web = driver.find_element(by=By.XPATH, value='//*[@id="sb_form_go"]')
            # try:
            web.click()
            # except: pass
            time.sleep(5)
        num = 0


if __name__ == '__main__':
    from temp import Make_Excel, input_data_list, input_data
    xlsx = Make_Excel()
    web = Web_Browser()
    web.get_all_opened_windows()
    # web.switch_window('故障诊断')

    ''' 学术网 '''
    web.func1(xlsx)  # 学术网
    # web.func2(xlsx)  #  青塔网
    # web.func3(xlsx)  #  NSFC官网

    # web.func4(xlsx, )    # goole搜索网


    # xlsx.make_frame()
    # xlsx.save_excel()

    pass


到了这里,关于Selenium控制已运行的Edge和Chrome浏览器——在线控制 | 人机交互(详细启动步骤和bug记录)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 使用Selenium控制Chrome浏览器 --工作自动化

    使用Selenium控制Chrome浏览器 --工作自动化 最近朋友在用秒账做帐时,由于销售单量很大,重复录入工作一天一录就近五个小时,寻求帮助,问能不能把这重复劳动减少些,看后分析,使用web自动化,应能解决问题,特此记录如下:  Selenium 简介:Selenium 是一套完整的web应用程

    2024年02月01日
    浏览(65)
  • 【Selenium】控制当前已经打开的 chrome浏览器窗口(高级版)

    利用 Selenium 获取已经打开的浏览器窗口,全python操作 标题 链接 【Selenium】控制当前已经打开的 chrome浏览器窗口 https://blog.csdn.net/weixin_45081575/article/details/112621581 【Selenium】控制当前已经打开的 chrome浏览器窗口(高级篇) https://blog.csdn.net/weixin_45081575/article/details/126389273 不同

    2024年01月17日
    浏览(85)
  • python运行selenium创建Edge浏览器更改默认下载路径的方法与防止程序结束后浏览器窗口自动关闭的方法

    结合chatgpt与csdn查阅资料后 得到解决方法: 其中 “D:Downloads_test”改为你自己想要默认下载路径, \\\"download.prompt_for_download\\\"为下载文件开始时Edge浏览器是否弹出另存为窗口,True则触发下载时会弹出另存为窗口,False则直接将文件下载到默认下载路径中。 另存为窗口长相如下

    2024年02月11日
    浏览(44)
  • 谷歌chrome浏览器所有历史版本下载及selenium自动化控制插件资源分享

    使用python + selenium做网页自动化开发的小伙伴经常需要用到google chrome浏览器以及chromedriver插件。     谷歌浏览器所有历史版本下载链接: chrome历史版本,点击下载 chromedriver插件下载地址: 下载链接1:点击下载 下载链接2:点击下载 chromedriver插件与浏览器版本有对应关系,

    2024年02月14日
    浏览(53)
  • Edge&Chrome浏览器暗模式设置

    1.## Edge浏览器暗黑模式设置 第一步: 打开Edge浏览器,点击界面右上角的三点图标。 第二步: 点击“设置” 第三步:点击,左侧界面的“外观” 第四步:在“系统默认”下选择“深色” 第五步:此时,系统界面进入暗模式。但是网页并没有改变颜色。如果想整个进入暗模

    2024年02月09日
    浏览(61)
  • 【Tricks】关于如何防止edge浏览器偷取chrome浏览器的账号

    前段时间edge自动更新了,我并没有太在意界面的问题。但是由于我使用同一个网站平台时,例如b站,甚至是邮箱,edge的账号和chrome的账号会自动同步,这就导致我很难短时间内切换账号,亦或是同时登录两个账号。 It is quite ANNOYING. 于是就有了这篇杂谈博客。这里特别感谢

    2024年02月07日
    浏览(62)
  • selenium 驱动 Edge浏览器,解决selenium打开Edge浏览器闪退问题

    1、在设置中查看浏览器的版本号 2、在官网中进行对应下载 Microsoft Edge WebDriver - Microsoft Edge Developer 1、打开设置界面 右击【此电脑】---选择【属性】----选择【高级系统设置】-----点击【环境变量】 2、变量设置 在【系统变量】选项中,选择【Path】----》点击新建 将Edge浏览器

    2024年02月05日
    浏览(75)
  • Chrome,Edge浏览器关闭http跳转https

    在今天的互联网时代,网站安全已经成为了每个网站所有者不得不重视的问题。其中,HTTPS协议是保证网站安全性的最基本要素之一。目前,大部分网站都已经采用了HTTPS协议。然而,仍有一些网站仍采用未加密的HTTP协议,这会造成危险和风险。为了保障用户信息的安全,浏

    2024年02月08日
    浏览(61)
  • chrome和edge浏览器,实现视频不静音自动播放

    chrome a.先打开网站的设置 b.找到声音设置,将 自动(默认)修改为 允许,然后刷新原网页即可。 microsoft edeg a.和chorme一样的操作,先打开设置。 b.选择cookie和网站权限,找到媒体自动播放设置后进入。 c.设置为允许即可。当然如果你只想要某些网站允许自动播放,可以在下

    2024年02月12日
    浏览(103)
  • windows下Edge浏览器&Google Chrome与Safari双向同步书签

    最近刚入手了 iPad,在上面装了edge浏览器后实现了收藏夹,浏览记录同步的问题,可是Safari浏览器也同样好用,于是想体验一下不同系统之间的协同 设置和使用 Windows 版 iCloud 1 新建TXT文件,填入内容如下: 2 修改txt文件名为.reg格式,双击导入注册表 3 打开桌面版iCloud应用,

    2023年04月25日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包