每周编辑精选|微软开源 Orca-Math 高质量数学数据集、清华大学研究团队发布条件去噪扩散模型 SPDiff...

这篇具有很好参考价值的文章主要介绍了每周编辑精选|微软开源 Orca-Math 高质量数学数据集、清华大学研究团队发布条件去噪扩散模型 SPDiff...。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Orca-Math 是微软研究院发布的数学推理模型,该模型展示了较小的专业模型在特定领域的价值,它们可以匹配甚至超越更大模型的性能。微软近期开源了用于训练 Orca-Math 的 Orca-Math-200K 数学单词问题数据集,现已在 hyper.ai 官网提供下载,快来体验吧!

3 月 11 日-3 月 15 日,hyper.ai 官网更新速览:

* 优质公共数据集:10 个

* 优质公共教程:2 个

* 社区文章精选:3 篇

* 热门百科词条:10 条

访问官网:hyper.ai

公开数据集精选

1. Orca-Math-200K 微软数学单词问题数据集

Orca-Math-200K 是微软创建的一个高质量的合成数据集,包含约 20 万小学数学题目,此数据集中的所有答案都是使用 Azure GPT4-Turbo 生成的。

直接使用:

https://my5353.com/30060

2. MULTI-Benchmark:带有文本和图像的多模态理解排行榜

该数据集为上海交通大学发布的多模态基准测试 MULTI ,旨在评测多模态大模型在理解复杂的表格和图像、以及进行长文本推理的能力。该测试提供多模态输入,并要求回答是精确的或开放式的,反映了现实生活中的考试风格。MULTI 包含逾 18,000 个问题,涵盖从公式推导到图像分析及跨模态推理的多样化任务。

直接使用:

https://my5353.com/30062

3. IEPile 大规模信息抽取语料库 

IEPile 是由浙江大学研发的大规模高质量的双语(中英)信息抽取 (IE) 指令微调数据集,涵盖了命名实体识别 (NER) 、关系抽取 (RE) 和事件抽取 (EE) 三大核心子任务。该数据集包含约 200 万条指令样本,总计约 3.2 亿 Token,涵盖了通用、医学、金融等多个领域。

直接使用:

https://my5353.com/30064

4. FFHQ-UV-Intrinsic 用于 3D 人脸重建的面部属性数据集

FFHQ-UV-Intrinsic 是 Ubisoft LaForge 基于 FFHQ-UV 数据集构建的内在面部属性数据集,该数据集包含了 10,000 个主体的面部内在属性,包括漫反射、镜面反射、环境光遮挡和半透明贴图。它是首个公开的、大规模提供高分辨率的内在属性的面部数据集。

直接使用:

https://my5353.com/30113

5. GITQA 多模态图推理问答数据集

GITQA 是香港科技大学和南方科技大学构建的首个包含视觉图的推理问答数据集。该数据集包含超过 423K 个问答实例,每个实例包含相互对应的图结构-文本-视觉信息及其相应的问答对。

直接使用:

https://my5353.com/30116

6. SMolInstruct 化学指令微调数据集

SMolInstruct 是俄亥俄州立大学提出的一个大规模、全面且高质量的化学指令微调数据集,该数据集包含 14 个不同的化学任务,共超过 300 万个样本,涵盖 160 万个独特的分子。

直接使用:

https://my5353.com/30133

7. MusicPile 大型音乐数据集

MusicPile 是由 Multimodal Art Projection Research Community 、 Skywork AI 和香港科技大学联合推出的一个大型音乐-语言预训练数据集。该数据集包含 517 万个样本,约 41.6 亿 Token,来源包括音乐书籍、 YouTube 音乐字幕、 ABC 记谱法作品等。MusicPile 覆盖了广泛的音乐常识、知识问答及典型乐理内容,对提升大模型的音乐理解与创作能力具有关键作用。

直接使用:

https://my5353.com/30136

8. seq-monkey 序列猴子开源数据集 1.0

序列猴子是出门问问提供的超大规模语言模型,序列猴子数据集是用于训练序列猴子模型的数据集合,现抽取了部分数据集向公众开放:涉及领域包括:中文通用文本语料、古诗今译语料、文本生成语料。

直接使用:

https://my5353.com/30139

9. 豆瓣电影短评论数据集 V2

该数据集包含豆瓣电影网站中 28 部电影的超过 200 万条短评论。它可以用于文本分类、文本聚类、情感分析、语义网络构建以及其他一些与网络挖掘或 NLP 相关的领域。

直接使用:

https://my5353.com/30011

10. AdaDR—论文「基于自适应 GCN 方法进行药物重新定位」的数据集

该数据集为论文「基于自适应 GCN 方法进行药物重新定位」使用的数据集。为了全面评估所提出的模型性能,研究团队使用了四个基准数据集:Gdataset (Gottlieb et al. 2011)、 Cdataset (Luo et al. 2016)、 Ldataset (Yu et al. 2021) 和 LRSSL (Liang et al. 2017),可应用于药物重新定位任务。

直接使用:

https://my5353.com/30057

更多本周更新数据集,请访问

https://hyper.ai/datasets

公共教程精选

1. 使用迁移学习进行花卉分类

该教程演示了如何使用迁移学习在一组花卉图像数据集上执行图像分类。教程中将利用一个预训练的卷积神经网络 (CNN) 作为特征提取器,并在其上构建一个自定义分类器来预测花卉的种类。

在线运行教程:

https://my5353.com/n30069

2. 量化 Vision Transformers(Vit)以实现高效部署:策略和最佳实践

随着各行业对先进计算机视觉系统的需求持续激增,Vision Transformers 的部署已成为研究人员和从业者的焦点。然而,要充分发挥这些模型的潜力,需要对其架构有深入的了解。此外,制定有效部署这些模型的优化策略也同样重要。

本教程全面探讨了 Vision Transformer 架构、关键组件以及使它们与众不同的基本原理。在教程的最后,通过代码演示讨论了一些优化策略,使模型更加紧凑,以便于部署。

在线运行教程:

https://my5353.com/n30119

社区文章精选

1. 仅需 5% 训练样本达到最优性能,清华大学研究团队发布条件去噪扩散模型 SPDiff,实现长程人流移动模拟

清华大学研究团队提出了一种新颖的条件去噪扩散模型 SPDiff,该模型能够有效地利用交互动力学,通过社会力引导的扩散过程来模拟人群行为。相关论文已发表于 AAAI 2024。

查看完整报道:

https://my5353.com/n30069

2. 北师大研究团队建立 ECA-Net 模型,预测中国未来 70 年的风能利用潜力

近期,来自北京师范大学环境学院的研究团队发表论文,在全球变暖的大背景下,评估了我国风能潜势将如何发生变化。该研究采用了 22 个 CMIP6 全球气候模型作为输出,从而对模型间的不确定性进行可靠评估。结果显示,本世纪我国整体的风能密度将呈现轻微下降趋势。相关论文已发表于「ACS Publications」。

查看完整报道:

https://my5353.com/n30119

3英伟达 2024 GTC 倒计时,黄仁勋会带来面向中国市场的新举措吗?

2024 年 GTC AI 大会定档 3 月 18 日—21 日,黄仁勋将在北京时间 3 月19 日凌晨 4:00—6:00 带来一年一度的分享,主题为「见证 AI 的变革时刻」。HyperAI超神经基于老黄最近的演讲访谈与行业趋势,大胆预测了一下其演讲话题。

查看完整报道:

https://my5353.com/n30151

百科词条精选

1. 平均精度 (mAP)

2. 实例分割 Instance Segmentation

3. 交并比 Intersection over Union (IoU)

4. 多项式插值 Polynomial Interopolation

5. 倒数排名融合  Reciprocal Rank Fusion (RRF)

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://hyper.ai/wiki

B 站直播预告

日期

时间

内容

3 月 11 日
星期一

10:00

17:00

MIT深度学习课程 

2020

MIT深度学习课程 

2021

3 月 12 日

星期二

10:00

Python API 开发

——初学者综合课程

3 月 13 日

星期三

10:00

14:00

SQL 教程—初学者课程

生成式 AI 全套课程

3 月 14 日

星期四

21:00

面向初学者的 

Flutter 课程

3 月 15 日

星期五

10:00

面向初学者的 

Flutter 课程

3 月 16 日

星期六

10:00

哈佛 CS50

—Python 人工智能课程

3 月 17 日

星期日

10:00

一天内学习 PyTorch 

进行深度学习

超神经电视台 7×24h 不间断直播,持续输出 AI 行业见解,一起来学习吧:

http://live.bilibili.com/26483094

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

* 为 1200+ 公开数据集提供国内加速下载节点

* 收录 300+ 经典及流行在线教程

* 解读 100+ AI4Science 论文案例

* 支持 500+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai/

 往期推荐 

每周编辑精选|微软开源 Orca-Math 高质量数学数据集、清华大学研究团队发布条件去噪扩散模型 SPDiff...,microsoft

每周编辑精选|微软开源 Orca-Math 高质量数学数据集、清华大学研究团队发布条件去噪扩散模型 SPDiff...,microsoft

每周编辑精选|微软开源 Orca-Math 高质量数学数据集、清华大学研究团队发布条件去噪扩散模型 SPDiff...,microsoft

每周编辑精选|微软开源 Orca-Math 高质量数学数据集、清华大学研究团队发布条件去噪扩散模型 SPDiff...,microsoft文章来源地址https://www.toymoban.com/news/detail-842449.html

到了这里,关于每周编辑精选|微软开源 Orca-Math 高质量数学数据集、清华大学研究团队发布条件去噪扩散模型 SPDiff...的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 微软和OpenAI联手推出了GitHub Copilot这一AI编程工具,可根据开发者的输入和上下文,生成高质量的代码片段和建议

    只需要写写注释,就能生成能够运行的代码?对于程序员群体来说,这绝对是一个提高生产力的超级工具,令人难以置信。实际上,早在2021年6月,微软和OpenAI联手推出了GitHub Copilot这一AI编程工具。它能够根据开发者的输入和上下文,生成高质量的代码片段和建议。这个工具

    2024年02月09日
    浏览(71)
  • 基于Python的100+高质量爬虫开源项目(持续更新中)

    以下是项目所使用的框架,不同的项目所使用的框架或许有不同,但都万差不离: Scrapy:一个快速的高级Web爬虫框架,可用于从网站中提取结构化数据。 BeautifulSoup:一个用于从HTML和XML文件中提取数据的Python库。 PySpider:一个轻量级,跨平台并基于事件的Python爬虫框架。 T

    2024年01月16日
    浏览(64)
  • [PDF编辑精选] 适用于 Windows 10/11 的PDF 编辑器列表

    PDF 是 Portable Document Format 的缩写,是 Adob​​e 创建的一种文件格式,用于在保留格式的情况下轻松查看和共享——无论查看文档的任何人使用的软件或操作系统如何。然而,与PDF文档相关的一个主要问题出现了,那就是编辑文档内容。作为一种解决方案,市场上出现了各种能

    2024年02月22日
    浏览(70)
  • 开源 ChatFlow:让人类设计高质量流程,让 ChatGPT 生成与复读

    太长不读版:ChatFlow 作为一个正经的开源项目,现在你可以在 ClickPrompt 上完成一切工作以外的活动:角色扮演、玩游戏、看小说、AI 画画等等,如下图所示: 于是,我们抽取 ClickPrompt 出了的核心能力,构建了一个新的框架:ChatFlow —— 一个围绕 ChatGPT 构建的简易工作流引擎

    2023年04月21日
    浏览(138)
  • 寿险公司通过开源治理保障数字创新,安全打通高质量服务新通道

    某寿险公司致力于为消费者提供人性化的产品和服务,在中国保险市场中始终保持前列。该寿险公司以挖掘和满足客户需求为出发点,从产品开发、渠道销售、运营流程和售后服务等各环节,借助数字化工具,不断地努力探索并提升服务品质。 该寿险公司借助数字科技力量,

    2024年02月03日
    浏览(58)
  • 解读科学计算助力行业高质量发展|2023 开放原子全球开源峰会科学智能分论坛即将启幕

    诺贝尔奖获得者威尔逊曾说过,现代科学研究的三大支柱:科学实验、理论研究、科学计算。深度学习和科学模型的结合,将会给传统科学领域带来新的机遇,并推动科研范式的创新。人工智能在科学计算领域有哪些问题和突破?如何更高效地运用 AI 为科学研究提供助力?需

    2024年02月07日
    浏览(60)
  • 万元预算打造高质量13B私有模型,Colossal-AI LLaMA-2 开源方案再升级

    几个月前,Colossal-AI 团队仅利用8.5B token数据、15小时、数千元的训练成本 , 成功构建了性能卓越的中文LLaMA-2 7B 版本模型,在多个评测榜单性能优越。 在原有训练方案的基础上,Colossal-AI 团队再次迭代,并通过构建更为细致完善的数据体系,利用 25B token 的数据,打造了 效

    2024年01月20日
    浏览(67)
  • ChatGPT开源项目精选合集

    大家好,我是 Java陈序员 。 2023年,ChatGPT 的爆火无疑是最值得关注的事件之一,AI对话、AI绘图等工具层出不穷。 今天给大家介绍几个 ChatGPT 的开源项目! 关注微信公众号:【Java陈序员】,获取 开源项目分享、AI副业分享、超200本经典计算机电子书籍等。 说明:天下没有免

    2024年02月03日
    浏览(45)
  • NeurIPS上新 | 从扩散模型、脑电表征,到AI for Science,微软亚洲研究院精选论文

    编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。 本期“科研上新”将为大家带来多篇微软亚洲研究院在 N

    2024年02月03日
    浏览(47)
  • Star History 九月开源精选 |开源 GitHub Copilot 替代

    虽然大火了近一年,但是截至目前 AI 唯一破圈的场景是帮助写代码(谷歌云旗下的 DORA 年度报告也给 AI 泼了盆冷水)。不过对于软件开发来说,生成式人工智能绝对已经是新的标配。 本期 Star History 收集了一些开源 GitHub Copilot 替代品(不免费,也不开源),AI 编程助手来解

    2024年02月06日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包