杂七杂八的记录小铺

常见的分布式并行策略

数据并行、模型并行、混合并行

By SeaMount, Words: 9137

Posted on November 21, 2023

近年来，随着模型规模的不断扩大，训练一个单独的模型所需要的算力和内存要求也越来越高。然而，由于内存墙的存在，单一设备的算力以及容量受到限制，而芯片的发展却难以跟上模型扩大的速度。为了解决算力增速不足的问题，人们开始考虑使用多节点集群进行分布式训练，以提升算力。 [Read More]

Tags:

Transformer 模型结构不完全详解

Transformer 究竟是什么？

By SeaMount, Words: 7137

Posted on November 18, 2023

2017 年 Google Brain 在 NeurIPS 上面发表了论文 Attention Is All You Need，文章中提出了一种新的 seq2seq 模型 —— Transformer。Transformer 舍弃了先前的 RNN/CNN 结构，采用 encoder-decoder 的结构，只使用注意力模型来进行序列建模，解决了之前 RNN 固有顺序不能并行化的缺点，Transformer 对于长序列语义的捕获能力也比先前的 RNN 结构更强。 [Read More]

Tags: