[NLP]Huggingface模型/数据文件下载方法

这篇具有很好参考价值的文章主要介绍了[NLP]Huggingface模型/数据文件下载方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

问题描述

作为一名自然语言处理算法人员,hugging face开源的transformers包在日常的使用十分频繁。在使用过程中,每次使用新模型的时候都需要进行下载。如果训练用的服务器有网,那么可以通过调用from_pretrained方法直接下载模型。但是就本人的体验来看,这种方式尽管方便,但还是会有两方面的问题:

  • 如果网络很不好,模型下载时间会很久,一个小模型下载几个小时也很常见
  • 如果换了训练服务器,又要重新下载。

一 迅雷下载

实测发现迅雷比命令行速度快许多,而且在库中文件非常多的时候也比较方便断点重下,非常推荐

首先 运行以下代码得到所有文件下载URL:

把URL全部复制到迅雷中批量下载:

[NLP]Huggingface模型/数据文件下载方法,自然语言处理,人工智能

from huggingface_hub import hf_hub_url
from huggingface_hub.utils import filter_repo_objects
from huggingface_hub.hf_api import HfApi

repo_id = "decapoda-research/llama-7b-hf"
repo_type = "model" # 如果是数据 dataset

repo_info = HfApi().repo_info(repo_id=repo_id, repo_type=repo_type) # 有时候会连接Error,多试几次
files = list(filter_repo_objects(items=[f.rfilename for f in repo_info.siblings]))
urls = [hf_hub_url(repo_id, filename=file, repo_type=repo_type) for file in files]
print("\n".join(urls))

二 Git LFS 模型下载方案(优雅,但不够灵活)

准备工作

mac: brew install git-lfs

Git LFS的方案相较于前面自行实现的方案要简洁的多得多。我们需要在安装git的基础上,再安装git lfs。以Windows为例,命令如下

git lfs install

[NLP]Huggingface模型/数据文件下载方法,自然语言处理,人工智能

 

这种方案也存在着一定的问题,即会下载仓库中的所有文件,会大大延长模型下载的时间。我们可以看到在目录中包含着flax_model.msgpack、tf_model.h5和pytorch_model.bin三个不同框架模型文件,在bert-base-uncased的版本中,还存在着rust版本的rust_model.ot模型,如果我们只想要一个版本的模型文件,这种方案就无法实现了。

 三 Hugging Face Hub 模型下载方案(优雅,强烈推荐)

from huggingface_hub import snapshot_download
snapshot_download(repo_id="bert-base-chinese")

如何下载指定版本的内容呢?在snaphot_download方法中,提供了allow_regex和ignore_regex两个参数,简单来说前者是对指定的匹配项进行下载,后者是忽略指定的匹配项,下载其余部分。我们只需要使用其中一种就可以了,这里以ignore_regex为例演示下如何只下载Pytorch版本的模型,代码如下。

snapshot_download(repo_id="bert-base-chinese", ignore_regex=["*.h5", "*.ot", "*.msgpack"])

可以看到,此时下载项相较于前面完整的下载少了几项,我们再打开文件目录查看一下,可以看到此时就没有了TensorFlow和Flax的模型了!

如何优雅的下载huggingface-transformers模型 - 知乎 (zhihu.com)文章来源地址https://www.toymoban.com/news/detail-603970.html

到了这里,关于[NLP]Huggingface模型/数据文件下载方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 从huggingface上直接下载文件到服务器上

    假设我要下载该网址的pth文件  那么输入以下命令即可,注意 repo_id 和 subfolder 所对应网址的哪个部分(这个搞了我好久!!!) command : 若要指令下载的本地文件夹,通过 local_dir 指定即可 更多设置参考官网:Downloading files

    2024年02月12日
    浏览(42)
  • 如何批量下载hugging face模型和数据集文件

    目前网上关于下载hugging face模型文件大多都是一个一个下载,无法做到批量下载,但有些模型或数据集包含文件太多,不适用一个一个下载。本文将会介绍如何使用git进行批量下载。 由于Hugging Face的部分模型和数据集在国外服务器,不使用代理比较慢,所以要先配置git代理。

    2024年02月11日
    浏览(33)
  • Huggingface镜像网站下载语言模型方法

    通常通过镜像网站下载https://hf-mirror.com/。 在链接页面有介绍方法,对于不大的模型可以直接下载。这里介绍比较常用且方便的下载方法。 安装(huggingface_hub、hf_transfer安装可以使用-i命令从镜像网站下载) 基本命令(每次打开远程链接都要输入) 下载模型(下载NousResearch

    2024年02月21日
    浏览(85)
  • 【tips】huggingface下载模型权重的方法

    方法1:直接在Huggingface上下载,但是要fanqiang,可以git clone或者在代码中: 方法2:使用modelscope: 方法3:使用hf的镜像网站,https://hf-mirror.com/baichuan-inc 代码还是使用的huggingface那坨,但是在terminal运行代码时加上 HF_ENDPOINT=https://hf-mirror.com : 注:huggingface的镜像网站下载llam

    2024年02月08日
    浏览(50)
  • whisper large-v3 模型文件下载链接

    加速下载 apt install aria2 aria2c -x 16 https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt --all-proxy=http://host.docker.internal:7890 我这是在容器里用代理,代理选项可去除 这是gpt4给我的代码: 我想写一个python程序,在我发出“过”的语

    2024年02月05日
    浏览(25)
  • 【前端文件下载】直接下载和在浏览器显示下载进度的下载方法

    之前做下载文件遇到了点问题, 就趁此机会总结一下前端下载文件的方法: 如果是浏览器支持的类型, 那么打开的话是一个preview操作, 那么针对浏览器不支持预览的类型, 如果打开的话就会进行下载操作 a. 地址栏直接输入URL b. window.location.href = URL c. window.open(URL) 使用a标签来下载

    2024年02月05日
    浏览(26)
  • day3:基于UDP模型的简单文件下载

    思维导图 tftp文件下载客户端实现

    2024年01月17日
    浏览(24)
  • 高速下载VisualGLM模型文件的解决方案

      大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作

    2024年02月12日
    浏览(24)
  • 前端:下载文件(多种方法)

    一、简介 前端经常会有下载文件的需求,这里总结了几种常用的方法,方便日后查看。 二、a标签下载 a href=\\\"https://abc.png\\\" download=\\\"abc.png\\\" target=\\\"view_window\\\"下载/a 三、window.open下载 四、location.href 五、saveAs 六、loadFileSimply 6.1、loadFileSimply 6.2、fileDownload 6.3、使用 七、url下载 八、

    2024年02月13日
    浏览(28)
  • 【前端】下载文件方法

    我最初使用的方法就是这个,只要提供了文件的服务器地址,使用 window.open 也就是在新窗口打开,这时浏览器会自动执行下载。 其实window.open和a标签是一样的,只是a标签是要用户点击触发,而window.open可以主动触发 后端如果设置了Content-Disposition ,那么不需要download属性也能

    2024年01月24日
    浏览(24)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包