如何使用python爬虫实现网页视频自动下载并保存:
-
使用python爬取页面,然后自动下载视频,但是这样会有一个问题,我并不是需要所有视频,有些是垃圾视频不需要下载,python似乎还没法做到识别我对哪些视频是有价值的,所以这一步人工绕不开,我选择直接把目标视频的详情页直接右键另存为本地html文件,随后再用python批量处理这些本地的html文件。
-
解析html文件取出视频的标题和下载url,按格式存为本地json
-
读取json,循环下载整个list的视频,并按配置给视频命名
目标功能点
-
递归读取html列表
-
研究html内格式、解密url
-
保存解析产物为json
-
读取json下载保存视频文章来源:https://www.toymoban.com/news/detail-670406.html
功能点代码
这一步可以将每一个html文件的路径从Downloads文件夹取出来。文章来源地址https://www.toymoban.com/news/detail-670406.html
def get_all_path():
global train_path, all_path, labels
train_path, all_path, labels = "./Downloads", [], []
# 递归获取文件夹内文件列表
def get_label_and_wav(path, file):
dirs = os.listdir(path)
for a in dirs:
# print(a)
# # 是否为文件夹
# print(os.path.isfile(path + "/" + a))
if os.path.isfile(path + "/" + a):
all_path.append(dirs)
if file != "":
labels.append(file)
else:
get_label_and_wav(str(path) + "/" + str(a), a)
# 循环遍历这个文件夹
return all_path, labels
到了这里,关于【python学习笔记】:实现网页视频自动下载并保存的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!