國外
使用
pip install transformers
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
# 加載模型和分詞器
model = AutoModelForSeq2SeqLM.from_pretrained('t5-small')
tokenizer = AutoTokenizer.from_pretrained('t5-small')
# 編碼輸入文本
input_text = "Translate English to French: Hello, how are you?"
input_ids = tokenizer.encode(input_text, return_tensors='pt')
# 生成輸出文本
outputs = model.generate(input_ids)
decoded_output = tokenizer.decode(outputs[0])
print(decoded_output)
大模型上下文長度1040k 換算成漢字大約多少字
上下文長度爲 1040k 詞元,如果每個詞元代表一個漢字,那麼上下文長度就是 1040 萬個漢字。因爲“k”代表千(kilo),所以 1040k 意味着 1040,0000。在中文文本中,通常一個詞元對應一個漢字,所以我們可以直接將詞元數轉換爲漢字數
如果我們假設一個詞元平均代表一個單詞,並且一個單詞平均有 5 個字符(這在英語中是一個合理的估計),那麼 1,040,000 詞元大約對應於:
1,040,000 詞元 * 5 字符/詞元 = 5,200,000 字符