ai 大模型

國內鏡像
https://hf-mirror.com/

國外

https://huggingface.co/

 

使用

pip install transformers
 

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

# 加載模型和分詞器
model = AutoModelForSeq2SeqLM.from_pretrained('t5-small')
tokenizer = AutoTokenizer.from_pretrained('t5-small')

# 編碼輸入文本
input_text = "Translate English to French: Hello, how are you?"
input_ids = tokenizer.encode(input_text, return_tensors='pt')

# 生成輸出文本
outputs = model.generate(input_ids)
decoded_output = tokenizer.decode(outputs[0])

print(decoded_output)

 

大模型上下文長度1040k  換算成漢字大約多少字

上下文長度爲 1040k 詞元,如果每個詞元代表一個漢字,那麼上下文長度就是 1040 萬個漢字。因爲“k”代表千(kilo),所以 1040k 意味着 1040,0000。在中文文本中,通常一個詞元對應一個漢字,所以我們可以直接將詞元數轉換爲漢字數

如果我們假設一個詞元平均代表一個單詞,並且一個單詞平均有 5 個字符(這在英語中是一個合理的估計),那麼 1,040,000 詞元大約對應於:

1,040,000 詞元 * 5 字符/詞元 = 5,200,000 字符

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章