用Python脚本自动采集金融网站当天发布的免费报告

这篇具有很好参考价值的文章主要介绍了用Python脚本自动采集金融网站当天发布的免费报告。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

点击上方“Python爬虫与数据挖掘”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

其间旦暮闻何物?杜鹃啼血猿哀鸣。

大家好,我是皮皮。

一、前言

前几天在Python群【林生】问了一个Python数据采集的问题,需求如下:

想写一个脚本能自动采集下载当天发布的这个页面的这几个免费报告,能保存成这个标题的pdf文件,网站是手机号注册就能下载这些文件的,就是在我注册登录状态下,能采集下载。

用Python脚本自动采集金融网站当天发布的免费报告,python,金融,开发语言

二、实现过程

一开始以为网站有逆向,还觉得挺难的,后来发现完全是裸奔,就放心了,发布任务到接单裙,一下子就被抢了,毕竟送钱的单子,人见人爱,花见花开了,300元的爬虫单子,也很香了。

下面是部分核心代码,如果你也对这个感兴趣的话,欢迎私我拿全部源码。

# -*- coding:utf-8 -*-
"""
开发环境:Python 3.86
脚本名称:2023-07-07 报告厅baogaoting
创建日期:2023年07月07日
"""
import datetime
import os, sys, time, traceback
import pathlib
from parsel import Selector
import requests

headers = {
 "xxx"
}
cookies = {
 "xxx"
}

def _down_file(dow_url,file_name):
 """
 :param dow_url:   下载链接
 :param file_name:  图片绝对路径 包括后缀名
 :return:
 """
 re_重试次数=0
 while True:
  try:
   response = requests.get(dow_url, headers=headers, cookies=cookies, timeout=10)
   if response.status_code == 200:
    break
   elif response.status_code == 404:
    break
   else:
    print(response.status_code)
    re_重试次数 += 1
  except Exception as e:
   adress = sys.exc_info()[-1]  # 异常地址
   line_error = traceback.extract_tb(adress, limit=1)[-1][1]  # 读取错误日志,最后一列的第二个元素即为模块出错行
   print(
    f"===================\n【异常原因】:{e}\n【异常类型】:{type(e)}\n【异常位置】:{line_error}\n===================")
   time.sleep(5)
   re_重试次数 += 1
  if re_重试次数 >= 10:
   response=""
   break
 if response:
  with open(file_name, "wb+") as f:  # , errors='ignore'
   f.write(response.content)
 else:
  print(f"【跳过】:下载失败{file_name}")


import winreg
def get_desktop():
 key = winreg.OpenKey(winreg.HKEY_CURRENT_USER,r'Software\Microsoft\Windows\CurrentVersion\Explorer\Shell Folders')
 return winreg.QueryValueEx(key, "Desktop")[0]

if __name__ == '__main__':
 zm_path=get_desktop()
 x_date = time.strftime("%Y-%m-%d")
 list_file_path=list(pathlib.Path(x_date).rglob("*"))
 dict_file_path={i.name:True for i in list_file_path}
 
 url = "https://www.baogaoting.com/space/30909237"
 for page in  range(1,3):
  params = {
   "page": page,
   "size": "15"
  }
  response = requests.get(url, headers=headers, cookies=cookies, params=params)
  """
    此处略去多行代码
    """
     print(f"【{title}】:热度{h3} 是当天上传的资料,准备访问下载{href_download}")
     if href_download:
      if not os.path.exists(f"{zm_path}//今日研报"):
       os.makedirs(f"{zm_path}//今日研报",exist_ok=True)
      title=title+ pathlib.Path(href_download).suffix
      #print(href_download, h3,title)
      for k in ["<", ">", "|", '"', "*", '\\', ":", "/", "?", "\n", "\r", "\t", "!", "☆"]:
       date = date.replace(k, '').strip()
      if dict_file_path.get(f"{date}_"+title):
       print(f"【状态】:已经下载了哦,自动跳过")
       continue
      else:
       _down_file(href_download, f"{zm_path}//今日研报//{title}")
     else:
      print(f"【状态】:链接{href_download} {title}无效,跳过不下载")
      
    else:
     print(f"【状态】:不是免费的,不下载")
    time.sleep(0.5)
   else:
    print(f"【状态】:{date} 上传时间不符合,直接结束!")
    break
 input(f"【状态】:完成了哦,按任意键退出软件")

顺利地解决了粉丝的问题。

用Python脚本自动采集金融网站当天发布的免费报告,python,金融,开发语言

这样每天打开软件,就可以获取到想要的研报文件了,再也不用挨个去下载,解放双手。

三、总结

大家好,我是皮皮。这篇文章主要盘点了一个Python网络爬虫实战的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

【提问补充】温馨提示,大家在群里提问的时候。可以注意下面几点:如果涉及到大文件数据,可以数据脱敏后,发点demo数据来(小文件的意思),然后贴点代码(可以复制的那种),记得发报错截图(截全)。代码不多的话,直接发代码文字即可,代码超过50行这样的话,发个.py文件就行。

用Python脚本自动采集金融网站当天发布的免费报告,python,金融,开发语言

大家在学习过程中如果有遇到问题,欢迎随时联系我解决(我的微信:pdcfighting1),应粉丝要求,我创建了一些ChatGPT机器人交流群和高质量的Python付费学习交流群和付费接单群,欢迎大家加入我的Python学习交流群和接单群!

用Python脚本自动采集金融网站当天发布的免费报告,python,金融,开发语言

小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。

------------------- End -------------------

往期精彩文章推荐:

  • if a and b and c and d:这种代码有优雅的写法吗?

  • Pycharm和Python到底啥关系?

  • 都说chatGPT编程怎么怎么厉害,今天试了一下,有个静态网页,chatGPT居然没搞定?

  • 站不住就准备加仓,这个pandas语句该咋写?

用Python脚本自动采集金融网站当天发布的免费报告,python,金融,开发语言

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~文章来源地址https://www.toymoban.com/news/detail-600245.html

到了这里,关于用Python脚本自动采集金融网站当天发布的免费报告的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 最新版Emlog采集发布插件-免费下载

    推荐一款可以自动采集网页文章数据,并发布到Emlog网站的Emlog采集发布插件(兼容最新的Emlog Pro版本,也兼容之前的 Emlog 5.3 和 Emlog 6.0 版本),支持对接简数采集器,火车头采集器,八爪鱼采集器,后羿采集器等大多数网页采集软件。 最新版Emlog采集发布插件使用方法如下

    2024年02月19日
    浏览(58)
  • 带自动采集小说网站源码 小说听书网站源码 小说网站源码 带教程

    PTCMS可听书可下载的小说站源码 带自动采集和搭建视频教程 必装环境:Nginx(apache.iis也可),mysql,php5.6,memcached php5.6安装扩展memcache新建站点,注意新建时,PHP版本必须选择PHP5.6 安装教程 1.上传网站文件到网站目录,新建网站伪静态选择thinkphp 2.新建数据库。导入数据库文件PT

    2024年02月07日
    浏览(53)
  • 免费搭建个人博客:零成本实现网站发布,无需域名和服务器

    估计每个开发者想拥有属于自己的个性化博客网站,但却担心域名和服务器费用 还有那些头痛的服务器费配置,现在我们可以可以在几分钟内拥有的博客网站,并且无需支付任何域名和服务器费用 本文推荐的建站方案核心就是:hugo  Hugo,一个快速、简单且功能强大的静态网站生

    2024年04月26日
    浏览(48)
  • 最新壁纸自动采集系统网站PHP源码/360壁纸官方数据接口采集/ZHEYI采集源码

    源码介绍: 最新壁纸自动采集系统网站PHP源码,它是ZHEYI自动采集源码,能够在360壁纸官方数据接口采集。很好用的壁纸网站源码分享,仅供学习,请勿商用。 ZHEYI自动采集壁纸PHP源码,能全自动采集高清壁纸网源码。它是是一个基于360壁纸官方数据接口的PHP网站源码,通过

    2024年02月08日
    浏览(54)
  • 【WAX链游】发布一个免费开源的Alien Worlds【外星世界】合约脚本TLM

    《链游Farmers World【农民世界】爆火,发布一个免费开源的脚本》 在之前的文章中,我们分享了一个开源的农民世界(Farmers World)脚本 【OpenFarmer】:https://github.com/encoderlee/OpenFarmer 经过这段时间以来的不断学习,我们开发出了外星世界(Alien Worlds)的脚本 【OpenAlien】:https://gith

    2024年02月10日
    浏览(35)
  • 新网站多久被google收录?谷歌当天收录网站靠谱吗?

    新网站多久被google收录? 答案是: 24小时内。 为什么你做的外贸网站在Google搜索引擎一直不收录或者收录很慢。 其实有一个很关键的原因,那就是谷歌爬虫到底有没有到你网站的页面上去抓取数据。 很大可能是没有, 当然你可以通过网站日志或者Google Search Console后台可以

    2024年02月09日
    浏览(56)
  • PC端性能测试自动化工具技术方案【采集脚本篇】

    ● 需求背景 PC端应用程序在每一个版本的迭代过程中,由于各版本的功能改动较多,为了避免在发布新版本时性能不会出现“大跳水”的情况,需要针对每一个版本进行性能测试。由于人工手动测试所需时间较长,且存在参数不准确、时间不可控等问题,所以需要针对PC 端开

    2024年02月06日
    浏览(43)
  • 金融人学Python最该关注的8大网站!

    安装入门:Anaconda 想象一下,新手驾驶者跃跃欲试地想要开启自己的第一次驾驶之旅。很多Python初探者,一脚油门直奔Baidu,急切地键入“Python”并下载(如果你能够避开网页上的一片广告并幸运的找到Python官方网站)。 NO—— 对于众多踏上这趟编程之旅的朋友,特别是那些

    2024年02月10日
    浏览(34)
  • 帝国CMS模板调用只读取当天发布的信息的代码

    核心 =$xinxi_row[title]? }? 这样就可以了,一般来说网站每天都要更新才可以得到搜索引擎的亲睐。

    2024年02月03日
    浏览(60)
  • Python采集某网站文档,并保存word格式

    哈喽兄弟们 我们平常需要下载文档的时候,是不是发现,要么不能下载,要么不能复制,就能难受。 常见的文档网站很多,但是这里就不一一说名字了,emmm 那么我们今天来分享一下,如何用Python将这些不给下载的文档给批量下载下来。 你需要准备 开发环境 模块使用 两个

    2024年02月16日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包