Huggingface Transformers實現張量並行的小坑 set/get_output_embeddings

原創

2024-05-06 13:23

transformers 庫裏實現的很多模型會有這麼兩個函數 get_output_embeddings和 get_output_embeddings。以 SwitchTransformer 爲例

class SwitchTransformersForConditionalGeneration(SwitchTransformersPreTrainedModel):
    def set_output_embeddings(self, new_embeddings):
        self.lm_head = new_embeddings
    def get_output_embeddings(self):
        return self.lm_head

默認情況下，大模型的輸入和輸出的 vocab 是保持一致的，所以如果傳入的 embedding 的大小變化了，默認也會讓 lm_head 發生變化。

但是在實現張量並行的時候，我們通常會使用如下方式來初始化lm_head

from fairscale.nn.model_parallel.layers import (
    ParallelEmbedding,
    RowParallelLinear,
    ColumnParallelLinear
)
default_linear_init = functools.partial(nn.init.kaiming_uniform_, a=math.sqrt(5))
def __init__(self, ...):
    self.lm_head = ColumnParallelLinear(config.d_model, config.vocab_size, bias=False, init_method=default_linear_init)

換言之，在多 GPU 張量並行下，每張卡上 lm_head 的輸出維度就不再是原來的 vocab_size 了，而是 vocab_size/#gpus。所以一種粗暴的解決辦法就是把get_output_embeddings的輸出改爲 None 即可，如下：

    def get_output_embeddings(self):
        return None # PretrainedModel.tie_weights 函數會將 lm_head 綁定爲 shared 參數，導致張量並行情況下 lm_head 參數發生不匹配的錯誤

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Huggingface Transformers實現張量並行的小坑 set/get_output_embeddings

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

Huggingface Transformers實現張量並行的小坑 set/get_output_embeddings

Pytorch 如何使用 storage 實現參數 offload？

TACC 集羣使用筆記

圖解 vLLM 的推理調度策略

大模型推理框架 vLLM 源碼解析（二）：Block 模塊分配和管理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結