llama3的改進

原創

張博的博客

2024-04-21 14:26

llama2
{
"_name_or_path": "TheBloke/Llama-2-7B-fp16",
"architectures": [
"LlamaForCausalLM"
],
"bos_token_id": 1,
"eos_token_id": 2,
"hidden_act": "silu",
"hidden_size": 4096,
"initializer_range": 0.02,
"intermediate_size": 11008,
"max_position_embeddings": 2048,
"model_type": "llama",
"num_attention_heads": 32,
"num_hidden_layers": 32,
"pad_token_id": 0,
"rms_norm_eps": 1e-05,
"tie_word_embeddings": false,
"torch_dtype": "float32",
"transformers_version": "4.30.2",
"use_cache": true,
"vocab_size": 32000
}

llama3:
{
"_name_or_path": "../../llama-3-8b",
"architectures": [
"LlamaForCausalLM"
],
"attention_bias": false,
"attention_dropout": 0.0,
"bos_token_id": 128000,
"eos_token_id": 128001,
"hidden_act": "silu",
"hidden_size": 4096,
"initializer_range": 0.02,
"intermediate_size": 14336,
"max_position_embeddings": 8192,
"model_type": "llama",
"num_attention_heads": 32,
"num_hidden_layers": 32,
"num_key_value_heads": 8,
"pretraining_tp": 1,
"rms_norm_eps": 1e-05,
"rope_scaling": null,
"rope_theta": 500000.0,
"tie_word_embeddings": false,
"torch_dtype": "bfloat16",
"transformers_version": "4.39.3",
"use_cache": true,
"vocab_size": 128256
}

區別:
"bos_token_id": 128000, 跟2不一樣
"eos_token_id": 128001, 跟2不一樣
"intermediate_size": 14336,比2大
"max_position_embeddings": 8192,比2大 2只有2k說明句子長度變成8k了.
"torch_dtype": "bfloat16", 2代用的32位來存儲的. 說明16位模型是更好的效率的方案.
"transformers_version": "4.38.2", 需要的transformers的版本也更高了.
"vocab_size": 128256 #添加了大量的vocab_size 之前只有3w2
"num_key_value_heads": 8, key value 的維度比q要小四倍.

整體上都是維度上的微調和字典增加.

ps

可以看到翻了這個vocab, 一箇中文都沒有
編碼的例子:

具體中文能力還是看測試吧.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Git使用經驗總結4-撤回上一次本地提交

這個問題的意義在於，Git提交代碼是先提交到本地，然後再推送到遠端。一些比較嚴格的Git倉庫會有一些代碼提交檢查，一旦檢查到問題就會禁止提交。那麼這個時候就尷尬了，本地已經提交了，但是遠端又推送不上去。基於當前版本作修改再提交也不一定能推送

2024-05-08 14:31:14

Git使用經驗總結5-修改提交信息

還是先說說這個這樣做的目的爲什麼。除了正常的進行代碼變更說明修改，更重要的是Git提交的時候能夠觸發一些操作，例如在Github上提交close#24這樣的關鍵字可以將提交關聯到具體的issue上，這樣可以讓變更關聯到具體的需求或者討論上。

2024-05-08 14:31:14

全站變灰色樣式通用

html { -webkit-filter: grayscale(100%); -moz-filter: grayscale(100%); -ms-filter: grayscale(100%); -o-filter: grayscale(

2024-05-08 14:30:44

php-strpos 判斷一個字符串是否存在於另一個字符串中

在 PHP 中，你可以使用 strpos() 函數來判斷一個字符串（例如 "play"）是否存在於另一個字符串中。strpos() 函數會返回子字符串在原始字符串中首次出現的位置（索引從 0 開始），如果子字符串不存在，則返回 false。

流年中渲染了微笑

2024-05-08 14:30:04

編程隨想曲週刊（第75期）

這裏記錄每週的所見所聞，週日發佈。點擊閱讀原文可以直接訪問文章鏈接。文章看完豆瓣電影250後的體驗羅永浩的嘴，蔚來的腿熱點蔡崇信最新發聲：阿里承認錯誤，我們到了最危險的時刻！ 5年來首次，馬雲內網髮長文播客 156.程

2024-05-08 14:27:23

編程隨想曲週刊（第76期）

這裏記錄每週的所見所聞，週日發佈。點擊閱讀原文可以直接訪問文章鏈接。編程從零開始的 OpenWrt 工具互聯網上最值得信賴的指南網站 Apple Store一條新規，直接讓遊戲機模擬器登頂了 iOS最強模擬器 Delta 正式上

2024-05-08 14:27:23

DeepFilterNet復現

大概框架有兩路特徵，一個ERB特徵，另外一個是STFT之後的複數特徵。先使用ERB濾波器對ERB特徵進行增益，然後再傳入DNN模型，兩階段模型。整體時延最低可達5ms。這裏提到的DeepFilter，其實就是說用神經網絡對TF譜進行操

2024-05-08 14:25:33

條款49：瞭解 new handler 的行爲

2024-05-08 14:21:53

同事使用 insert into select 遷移數據，開開心心上線，上線後被公司開除！

作者：xlecho 鏈接：https://juejin.cn/post/6931890118538199048 血一般的教訓，請慎用 insert into select。同事應用之後，導致公司損失了近10w元，最終被公司開除。事情

2024-05-08 14:21:32

多語言實現 - 世界語言對應的簡寫

準備多語言文件： messages_en.properties、messages_zh.properties Locale locale = new Locale("en", "US"); // 設置語言爲英文，地區爲美國 Re

2024-05-08 14:15:12

《最新出爐》系列入門篇-Python+Playwright自動化測試-44-鼠標操作-上篇

1.簡介前邊文章中已經講解過鼠標的拖拽操作，今天宏哥在這裏對其的其他操作進行一個詳細地介紹和講解，然後對其中的一些比較常見的、重要的操作單獨拿出來進行詳細的介紹和講解。 2.鼠標操作語法鼠標操作介紹官方API的文檔地址：https://

2024-05-08 14:14:42

Docker 安裝 Elasticsearch 和 kibana

獲取鏡像 docker pull elasticsearch:8.11.4 docker pull elasticsearch:8.11.4 創建網絡 docker network create es-net 運行 es d

2024-05-08 14:14:21

算法~PBKDF2-SHA讓密碼更安全

摘要：在當今的數字世界中，密碼安全是至關重要的。爲了保護用戶密碼免受未經授權的訪問和破解，Password-Based Key Derivation Function 2 (PBKDF2)算法成爲了一種重要的工具。在 PBKDF2 算法中

2024-05-08 14:12:31

Computer Basics - Top 10 keyboard shortcuts everyone should know

REF https://www.computerhope.com/tips/tip79.htm Top 10 keyboard shortcuts(快捷鍵) everyone should know Using keyboard short

2024-05-08 14:10:30

Computer Basics - How to use a computer keyboard

REF https://www.computerhope.com/issues/ch001689.htm https://www.digitalunite.com/technology-guides/compute

2024-05-08 14:10:30

24小時熱門文章

最新文章

最新評論文章