原创 Huggingface Transformers實現張量並行的小坑 set/get_output_embeddings

transformers 庫裏實現的很多模型會有這麼兩個函數 get_output_embeddings和 get_output_embeddings。以 SwitchTransformer 爲例 class SwitchTransform

原创 Pytorch 如何使用 storage 實現參數 offload?

在深入探討 PyTorch 中的 Storage 類以及其在參數 offload 場景中的應用之前,讓我們首先了解一下 PyTorch 和它的基礎組件。PyTorch 是一個廣泛使用的開源機器學習庫,它不僅提供了強大的計算圖功能和自動梯度計

原创 TACC 集羣使用筆記

1註冊賬號 先在網頁上註冊賬號,之後需要聯繫導師或者管理員把你添加到對應的集羣裏去,例如我加入的是 Lonestar6 集羣。 之後需要跟着這個教程綁定 MFA 軟件(可以是 DUO 或者 1password) 之後登錄賬號,系統會要求先

原创 圖解 vLLM 的推理調度策略

原文: 從continuous batching到vLLM中的batching - 不知叫什麼好的文章 - 知乎 https://zhuanlan.zhihu.com/p/688551989

原创 大模型推理框架 vLLM 源碼解析(二):Block 模塊分配和管理

1. Block 概覽 vLLM 的一個很大創新點是將物理層面的 GPU 和 CPU 可用內存切分成若干個 block,這樣可以有效降低內存碎片化問題。具體而言,vLLM 的 block 分爲邏輯層面(logical)和物理層面(physi

原创 OpenAI 的視頻生成大模型Sora的核心技術詳解(一):Diffusion模型原理和代碼詳解

標題黨一下,順便蹭一下 OpenAI Sora大模型的熱點,主要也是回顧一下擴散模型的原理。 1. 簡單理解擴散模型 簡單理解,擴散模型如下圖所示可以分成兩部分,一個是 forward,另一個是 reverse 過程: forwar

原创 大模型推理框架 vLLM 源碼解析(一)

1. Quick Start 創建如下代碼,命名爲 run.py from vllm import LLM, SamplingParams prompts = [ "Have you followed marsggbo in Zhihu

原创 vllm 安裝踩坑 (The NVIDIA driver on your system is too old)

我的環境如下: nvidia-smi 顯示 cuda 版本是 11.7 目前最新vllm 要求的 torch 版本是 2.1.2,該版本要求的 cuda 版本是 11.8,所以不匹配。執行安裝會遇到如下錯誤 RuntimeError:

原创 IEEE 浮點數表示原理

原文: https://zhuanlan.zhihu.com/p/144697348

原创 LLM 學習筆記-Deepspeed-MoE 論文

論文 DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale 1. Introduction

原创 AttributeError: module 'torch' has no attribute 'fx'解決辦法

這個報錯原因很好解決,只需要在引入包的時候調用下面的語句就可以了 import torch.fx

原创 LLM 入門筆記-Tokenizer

以下筆記參考huggingface 官方 tutorial: https://huggingface.co/learn/nlp-course/chapter6 下圖展示了完整的 tokenization 流程,接下來會對每個步驟做進一步

原创 LLM 學習筆記-transformers庫的 PreTrainedModel 和 ModelOutput 到底是什麼?

閒言碎語 我在剛開始接觸 huggingface (後簡稱 hf) 的 transformers 庫時候感覺很冗雜,比如就模型而言,有 PretrainedModel, AutoModel,還有各種 ModelForClassifica

原创 大模型訓練過程中用到的 gpt_merge.txt和gpt_vocab.json是幹什麼用的?

下面這邊文章講的非常清晰,原文鏈接:https://blog.csdn.net/ljp1919/article/details/113616226

原创 在Megatron-Deepspeed項目中如何下載和預處理Wikipedia數據集

更詳細的查看 https://github.com/marsggbo/Megatron-DeepSpeed/blob/main/tutorials/gpt2_wikipedia.md 下載Wikipedia壓縮數據集(enwiki-la