selenium处理登陆爬虫(维持登陆状态请求页面)

这篇具有很好参考价值的文章主要介绍了selenium处理登陆爬虫(维持登陆状态请求页面)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

selenium在处理需要登陆的时候,需要修改浏览器请求头参数cookie或token,在请求需要登陆的页面时,添加参数,跳过登陆,直接获取登陆后的内容。

直接在driver对象内添加cookie参数绕开登陆

处理思路

  1. 浏览器先登陆,请求同一个域名下的网页,抓包,提取浏览器内的cookie字符串,如:
    selenium处理登陆爬虫(维持登陆状态请求页面),python爬虫综合,selenium,爬虫
    标红的字符串直接复制,并解析为python字典格式【将数据按照“;“划分,name为=之前内容,value为=后的值,domain 为接口的域名,组成以下格式。
cookie_string = 'uuid_tt_dd=xxxxxxxxxxx;' # 你的cookie字符串
cookies = [] # 用于添加到driver内的cookies列表
for cookie in cookie_string.split(';'):
    name = cookie.split('=')[0].strip()
    value = cookie.split('=')[1].strip()
    domain = '.csdn.net'
    cookies.append({
        "name":name,
        "value":value,
        "domain":domain
    })
  1. 新建driver,并添加cookie,请求数据
from selenium import webdriver
driver = webdriver.Chrome()

# 未添加cookie登录
driver.get("https://blog.csdn.net/yuan2019035055/article/details/131513357")

# 添加cookie
for cookie in cookies:
    driver.add_cookie(cookie)

# 重新登录
driver.get("https://blog.csdn.net/yuan2019035055/article/details/131513357")

driver.implicitly_wait(10)

访问登陆页面登陆

登陆地址:https://login2.scrape.center/文章来源地址https://www.toymoban.com/news/detail-663030.html

处理思路

  1. 访问登陆页
  2. 输入用户名密码(都为admin),点击登陆
  3. 截取详情页

到了这里,关于selenium处理登陆爬虫(维持登陆状态请求页面)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Selenium打开网页时保持登陆状态

    前言 今天在学习selenium的时候,每次调试网页都会打开一个新的浏览器窗口,当我想要做某些操作的时候就需要自己再去模拟登陆,太浪费时间了。那么要怎么样才能在打开网页的时候直接就是登陆状态呢? 使用下面的方法就可以直接加载登陆过后的保存在本地的信息,而且

    2024年02月11日
    浏览(33)
  • Python爬虫(二十三)_selenium案例:动态模拟页面点击

    本篇主要介绍使用selenium模拟点击下一页,更多内容请参考:Python学习指南 分享一份Python的学习资料,但由于篇幅有限,完整文档可以扫码免费领取!!! 1)Python所有方向的学习路线(新版) 总结的Python爬虫和数据分析等各个方向应该学习的技术栈。 比如说爬虫这一块,很

    2024年02月04日
    浏览(37)
  • Python爬虫入门系列之Selenium实现动态页面爬取

    在前一篇博客中,我们学习了如何使用多线程优化爬虫程序。但是,如果要爬取的网页是动态生成的或者包含大量JavaScript代码,单纯的静态页面爬取就不足够了。为了解决这个问题,我们可以使用Selenium库来模拟真实的浏览器行为,从而实现动态页面的爬取。 Selenium是一个用

    2024年02月11日
    浏览(35)
  • Python爬虫技术之Selenium自动化测试及模拟点击页面爬虫最全知识

    Selenium是一套Web网站的程序自动化操作解决方案(比如点击界面按钮,在文本框中输入文字等操作) Selenium的自动化原理如下 3.1 下载selenium库的命令 3.2 下载谷歌浏览器Chrome对应的驱动 驱动库网址:http://chromedriver.storage.googleapis.com/index.html 注意:根据自己的Chrome版本进行选择

    2024年01月16日
    浏览(47)
  • python网络爬虫selenium打开多窗口与切换页面,附详细答案解析

    time.sleep(2) win2 = driver.window_handles[1] driver.switch_to.window(win2) print(driver.current_url) 关于句柄在列表中的顺序, 建议一般最好只额外打开一个网页,不建议打开更多的网页进行切换。当打开的网页数量超过两个时,句柄列表中的元素分别代表哪个网页,其顺序是不太好确定的。以下

    2024年04月09日
    浏览(67)
  • python爬虫selenium页面滑动案例,作为一个Python程序员你还不会JetPack

    def up_page(self): time.sleep(1) self.driver.find_element(By.XPATH,‘//*[text()=“下一页”]’).click() def save_page(self, n=1): time.sleep(2) with open(f’第{n}页.html’, ‘w’, encoding=‘utf-8’) as f: f.write(self.driver.page_source) def run(self): try: self.save_page() # 第一页 for n in range(2, 6): # 第二三四五页 self.scroll() s

    2024年04月22日
    浏览(33)
  • python爬虫selenium被检测处理(适用淘宝登录)

    1.增加这个是防止检测是webdriver谷歌驱动调起的请求,通用大部分 2.修改chromedriver里面的内容: 用Notepad++打开chromedriver文件,查找  $cdc_  修改这个数值。 3.修改User-Agent的值,如果你长时间使用相同 的User-Agent:可能会被检测到加入黑名单, 这时候你修改User-Agent值就可能绕开

    2024年02月09日
    浏览(32)
  • python爬虫之selenium库,浏览器访问搜索页面并提取信息,及隐藏浏览器运行

    如果链接简单,爬虫可以通过链接用requests库提取页面信息,如爬取豆瓣top250影片信息,链接简单易懂。参考:爬取豆瓣top250影片信息 但如果遇到一些搜索之类的,基于js动态加载的网页,以上就不适合,如爬虫b站,搜索“爬虫”页面,第一页链接如下,第二页又是很长没规

    2024年01月23日
    浏览(43)
  • 【爬虫】用selenium登陆推特并爬取用户历史推文

    做rumor detection 用到了twitter15和twitter16数据集,里边只给了推文id和评论者的uid,想要爬取其他数据就只能自己动手。 我需要爬取推文评论用户在评论时间点前两个月的历史推文,然而这两个数据集都太老了,里边的数据都是13-14年的,所以用twitter API无法获取到(因为官方A

    2024年01月24日
    浏览(26)
  • 04 python38的scrapy和selenium处理异步加载的动态html页面

    1.4.1 taobao_login.py模拟登陆生成cookies.json 1.4.2 taobao_login_after.py淘宝登陆后测试 修改下载中间件配置 1.6.1 添加数据模型 1.6.2 修改爬虫代码 1.6.3 测试运行爬虫

    2024年02月06日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包