阿里云X森马 AIGC T恤设计大赛；SD新手入门完全指南；揭秘LLM训练中的数学；LLM高质量阅读清单

这篇具有很好参考价值的文章主要介绍了阿里云X森马 AIGC T恤设计大赛；SD新手入门完全指南；揭秘LLM训练中的数学；LLM高质量阅读清单 | ShowMeAI日报。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！

🤖 阿里云X森马 | AIGC T 恤设计大赛，函数计算玩转 Stable Diffusion

比赛官网：https://developer.aliyun.com/adc/series/activity/aigc_design

阿里云携手服装品牌森马，推出了本次 AIGC T 恤设计大赛。开发者、设计师、AI绘画爱好者，都可以使用阿里云函数计算快速部署 Stable Diffusion，以「宇宙漫游」为主题，进行AI创作并投递作品。

参与即有机会获得 Airpods、阿里云X森马联名T恤、森马定制旅行箱、森马无门槛代金券等丰厚奖励，所有作品均有机会被森马选中并购买版权成为下一季服装图案主题。

需要注意的是，大赛自8月21日开启作品征集，到9月21日截止上传，并在9月28日公布获奖信息。注意时间哦~

🤖 Meta推出开源模型「SeamlessM4T」，能翻译和转录近百种语言

8月22日，Meta 宣布推出人工智能多模态模型「SeamlessM4T」，能够直接翻译35种语言的语音和100种语言的文本。SeamlessM4T 的翻译功能很强大，可以完成语音到文本、语音到语音、文本到语音、文本到文本的翻译，并能够自动识别语音，是 Meta 推出通用翻译器的重要一步。

SeamlessM4T 在翻译基准上的表现要优于 OpenAI 的 Whisper，虽然二者的翻译质量目前都逊色于人类，但差距正在随着模型的优化而不断缩小。

Demo：https://seamless.metademolab.com/demo

秉持其一贯的开源策略，Meta 在开源协议CC BY-NC 4.0下公开发布了 SeamlessM4T，开发人员可以在这个模型的基础上进行开发。同时，Meta 还发布了 SeamlessAlign 的数据集，其博客提到这也是迄今为止最大的开放多模态翻译数据集，覆盖挖掘的语音和文本对齐总计达 270，000 小时 ⋙ Meta Blog | GitHub 模型代码下载

🤖 巨量引擎推出AI智能成片工具，商家5分钟生成十余条带货短视频

上周，巨量引擎宣布推出AI混剪工具「智能成片」，免费开放给抖音商家使用，可以帮助商家轻松制作跑量的带货短视频。

不用写脚本、找素材、找配乐，只需有商品空镜视频 (至少3条)，就能制作爆款带货短视频啦！5分钟即可快速成片，提供10+条跑量效果好的短视频，而且商家0成本使用、批量成片，大幅节省开支~

以下两个路径均可使用「智能成片」工具：巨量千川PC首页 → 工具 → 三方工具 → 智能成片、星图即合 → 智能成片 ⋙ 巨量千川 | 星图即合

🤖 一份高质量的 LLM 深度阅读清单，非常实用的资源指南

这篇文章汇集了关于大语言模型 (LLM) 的高质量、实用性强的学习资源合集，内容涉及LLM的方方面面，包括理论基础、关键论文、模型训练、实际应用、性能评估等。

这份资源注重实用性和长期参考价值，避免夸张的营销噱头，旨在真正帮助读者掌握LLM核心知识和技能，是一篇高质量的LLM学习资源指南。

以下是清单中各项内容的标题 (已翻译)，感兴趣的可以阅读原文：

背景

大型语言模型综述

自注意力和转换器网络

什么是嵌入?

简述词嵌入在机器学习中的运用 (YouTube视频)

了解大型语言模型的奇思妙想

基础论文

Attention is all you Need

神经语言模型的扩展定律

BERT

语言模型是无监督的多任务学习者

训练语言模型遵循指示

语言模型是少样本学习者

训练自己的模型

为什么要托管自己的语言模型?

如何训练自己的语言模型

训练计算优化的大型语言模型

Opt-175B日志

算法

GZIP 分类器的优点

Meta 推荐系统:使用和扩展 Word2Vec

GPT 现状 (YouTube视频)

ChatGPT在做什么以及为什么有效

LlamaCPP如何可能?

关于 prompt engineering

从零开始构建 Transformer

部署

构建面向生产环境的语言模型应用

大型语言模型的挑战和应用

使用语言模型构建产品时无人谈及的所有困难

扩展Kubernetes以运行ChatGPT

每个语言模型开发者都应知道的数字

评估

可解释的机器学习

评估ChatGPT

ChatGPT：全能但不精通

用户体验

除聊天外的生成式界面 (YouTube视频)

为什么聊天机器人不是未来 ⋙ 阅读原文

🤖 面向新手的 Stable Diffusion 入门指南，面面俱到的快速上手宝典

这是一个面向 Stable Diffusion 新手的入门指南系列，一共包含4篇文章，目的是让没有任何经验的读者快速上手这项强大的AI创作工具。

第一篇文章围绕 Stable Diffusion 基础知识展开，介绍了其使用方式与各种用法，以及关于提示词、参数和图像修复的内容。以下是文章大纲，感兴趣可以阅读原文：

什么是Stable Diffusion?

如何使用Stable Diffusion AI?

Stable Diffusion的优势是什么?

Stable Diffusion AI是免费的吗?

试用Stable Diffusion在线演示

Stable Diffusion能做什么?

从文本生成图像

从其他图像生成图像

照片编辑

制作视频

如何使用Stable Diffusion AI?

在线生成器

高级GUI

如何构建一个好的提示?

构建良好提示的规则

详细和具体

使用强大的关键词

那些参数是什么，我应该改变它们吗?

我应该生成多少张图片?

常见的修复图像缺陷方法

人脸修复

用修复修复小瑕疵

什么是自定义模型?

我应该使用哪个模型?

如何训练一个新的模型? ⋙ 第一篇

第二篇文章提供了构建高质量 Stable Diffusion 提示的实用技巧，对新手学习提示词汇和练习构建提示非常有帮助。此外，作者建议读者可以通过借鉴优秀的现成提示来快速上手，并在实践中逐步掌握提示构建技巧。

入门资源

一个好提示的结构

主题

媒介

添加其他要素

构建优质提示的技巧

一些有用的关键词

媒介

风格

艺术家

网站

分辨率

光照

附加细节

色彩

总结 ⋙ 第二篇

第三篇文章针对 Stable Diffusion 的图像修复功能inpainting 展开，通过具体的分步示例向初学者展示如何使用inpainting修复图像缺陷，并给出了一些实用的inpainting技巧。读完这篇指南对inpainting的原理和用法会有较为系统的了解。

图像模型和图形用户界面

基本填充设置

使用填充模型(可选)

创建填充遮罩

填充设置：提示词、图像大小、人脸恢复、遮罩内容、降噪强度、批量大小

填充结果

再进行一次填充

添加新对象

填充参数解释

降噪强度

CFG 比例

遮罩内容

填充技巧 ⋙ 第三篇

第四篇涵盖了 Stable Diffusion 模型方方面面的信息，例如原始模型和微调模型的区别、几种常用的模型微调方法、通用模型、针对特定风格进行微调的模型、模型融合的方法等等。

微调模型

什么是微调?

为什么要制作微调模型?

如何制作微调模型?

模型

Stable Diffusion v1.4

Stable Diffusion v1.5

F222

Anything V3

Open Journey

模型比较

最佳模型：DreamShaper、Deliberate v2、Realistic Vision v2、ChilloutMix、Protogen v2.2 (Anime)、GhostMix、Waifu-diffusion、Inkpunk
Diffusion

寻找更多模型

v2模型

SDXL模型

如何安装和使用模型

合并两个模型

合并模型实例

模型变体

Pruned， Full， EMA-only模型

fp16/fp32模型

Safetensor模型

其他类型模型

总结 ⋙ 第四篇

🤖 与 Eleuther.ai 工程师对谈，揭秘 LLM 训练中的数学奥秘

EleutherAI是一家非营利的人工智能研究组织，致力于开源大规模语言模型的训练和部署。

4月的时候，EleutherAI 发布了一篇名为「Transformer Math 101」的专业文章，总结了工程师们在大语言模型训练中的实践经验，这也应该是领域内相当稀缺且高级的经验总结，对从事相关研究和工程实践的人具有重要的参考价值。

整体上说，文章总结出了一系列计算 Transformer 模型训练需求的关键公式，并进行了详细的数学推导和说明，包括计算量、内存需求等：

导言 (Introduction)：文章的编写初衷是让 Transformer 语言模型中的一些基础数学公式更广为人知

计算需求 (Compute Requirements)：推导计算 Transformer 模型训练需求计算量的基本公式C≈τT=6PD，并详细解释了每个变量的含义

参数与数据集权衡 (Parameter vs Dataset Tradeoffs)：探讨在训练过程中参数量和数据集量的权衡取舍，提出了「chinchilla
scaling」的概念；建议确定可接受的推理成本，然后在此基础上训练尽可能大的模型和尽可能多的文本数据

计算成本的实用经验总结 (Engineering Takeaways for Compute Costs)：总结Transformer计算成本的一些实用经验，如常见的GPU计算能力数据，提高数据并行度时的吞吐量扩展情况等，这些经验对计算资源的合理配置非常有帮助

内存需求 (Memory Requirements)：推导Transformer在训练和推理两个阶段的各组成部分所需内存的计算公式，包括模型参数、优化器状态、激活值、梯度等；还讨论了减小内存开销的各种方法，如混合精度训练、激活值重计算等

分布式训练 (Distributed Training)：探讨了降低单个GPU内存压力，扩大可以训练的模型规模的分布式训练方法；重点讲解了分片优化器和三维并行化技术，前者可以减少优化器的内存开销，后者通过在数据、张量和流水线三个维度上进行并行来降低内存需求

结论 (Conclusion)：总结表达了分享这些经验的目的，希望能对读者有所帮助，欢迎反馈意见 ⋙ Transformer Math 101

上述文章的作者之一 @Quentin Anthony 受邀参与了一期播客对谈，分享大模型训练中的关键数学知识，内容非常专业且可贵。

需要注意的是，一般这种经验性知识只能在 Google、Meta等大公司中获得。以下是播客时间轴，感兴趣可以前往收听 (或阅读文字版)：

00:00 Quentin在Eleuther.ai的背景和工作

03:14 编写Transformers Math 101文章的动机

05:58 计算计算需求的关键方程(tau x T = 6 x P x D)

10:00 理论吞吐量和实际吞吐量的区别

12:42 应用方程估计GPT-3训练的计算需求

14:08 期望每个A100 GPU达到115+teraFLOPS作为基准

15:10 Nvidia和AMD GPU在训练方面的折衷

18:50 模型精度(FP32、FP16、BF16等)对内存的影响

22:00 即使内存无限，模型量化的好处

23:44 推理期间的KV缓存内存开销

26:08如何计算优化器内存使用量

32:03 训练总内存的组成部分(模型、优化器、梯度、激活函数)

33:47 激活值重计算以减少内存开销

38:25 如ZeRO等分片优化器在GPU之间分配

40:23 ZeRO中的分散聚集等通信操作

41:33 先进的3D并行技术(数据、张量、流水线)

43:55 组合3D并行和分片优化器

45:43 异构集群分发时的挑战

47:58 闪电轮 ⋙ 播客&文字

🤖 斯坦福 CS224n | 自然语言处理与深度学习课程

https://web.stanford.edu/class/cs224n/index.html

斯坦福大学「CS224n: Natural Language Processing with Deep Learning」课程，聚焦自然语言处理与深度学习，主要介绍使用深度学习进行自然语言处理的前沿研究。通过课程的学习，学生可以系统地学习设计、实现和理解基于神经网络的自然语言处理模型。

词向量

词向量，词窗口分类，语言模型

反向传播与神经网络

依存关系解析

循环神经网络与语言模型

seq2seq，机器翻译，子词模型

自注意力机制与Transformers

预训练

自然语言生成

Hugging Face Transformers教程课

提示，来自人类反馈的强化学习

问题回答

卷积网络，树递归神经网络与成分解析

NLP 与语言学间的洞察

代码生成

训练大语言模型

多模态深度学习

共指消解

分析和解释性基础

Latex 教程

模型解释性和编辑

中英字幕视频：https://www.bilibili.com/video/BV1Yo4y1D7FW

完整学习笔记：https://www.showmeai.tech/tutorials/36

课程目前进行到了 Winter 2023 期次，课程页面更新了最新版的 Slides 和 Notes，不过并没有释放出新版课程视频。

ShowMeAI 对课程历史版本的视频进行了搬运和翻译，详见上方B站链接。本公众号回复课程代码「CS224n」可以获取 ShowMeAI 整理好的完整课程资料 (当然也是历史版本)。如果对课程感兴趣，强烈推荐上面这份 ShowMeAI 的学习笔记，中文版带你丝滑学完全程~

🤖 斯坦福 CS224U | 自然语言理解课程

https://web.stanford.edu/class/cs224u

斯坦福大学「CS224U: Natural Language Understanding」是一门NLP相关的课程，以理解文本的含义为中心，对自然语言处理和深度学习进行了介绍。

课程将涵盖语言模型、文本分类、情感分析、命名实体识别、问答等主题，帮助掌握如何表示和分析语言结构，如何训练模型进行NLP任务，以及如何评估性能。

课程最新版本是 Spring 2023，并且公开了课件、Notesbook和相关拓展材料，感兴趣可以前往主页获取：

Contextual representations

Multi-domain sentiment analysis

Retrieval-augmented in-context learning

Compositional generalization

Benchmarking and adversarial training and testing

Model introspection

Methods and metrics

感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们！

◉ 点击 👀日报&周刊合集，订阅话题 #ShowMeAI日报，一览AI领域发展前沿，抓住最新发展机会！

◉ 点击 🎡生产力工具与行业应用大全，一起在信息浪潮里扑腾起来吧！文章来源地址https://www.toymoban.com/news/detail-669860.html

到了这里，关于阿里云X森马 AIGC T恤设计大赛；SD新手入门完全指南；揭秘LLM训练中的数学；LLM高质量阅读清单 | ShowMeAI日报的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！