§§   正反修羅部落格

總 覽版 務政 經健康醫療軍 武理 財文 化藝 文科 技台灣的美旅 遊PISA娛 樂鄉 土公 民認 同副 刊哈 啦范氏網
竹縫
視界
耳聾
世界
泰伯
觀點
Joy
隨筆
哈利
天地
Jerry C
鳥 世 界
射水魚
天 空
討海人
鏡 頭
嘻笑
人間
詩情
畫藝
老工仔
思 維
網網
相連
歷史
庫存

主題:製作AI正反修羅第二階段網友們有何建議
發表:正反修羅 2025-04-26 12:43:29 閱覽數:103 (IP: ) T 8410_R 0 引 用
長期以來,甚至在LLM如ChatGpt 都還沒出現之前,10幾年前,我就設定一個「大蛇丸計畫」:製造一個AI正反修羅。
要製作AI正反修羅的程中有些副產品:如課程賣得最好的「談判工作表」。早在1987年看Sunday night movies 看到內容是:一個當哥哥的生前製造一個類似現在ChatGpt 的work station ,過世後,弟弟發現哥哥還活在電腦中。然後我開始瘋狂地想製造一個AI正反修羅。

乘著AI時代的來臨的環境,我居然完成了以下的第一階段。進入第二階段遇到一個困難=買不到Nvidia rtx 5090。網友們有何建議!?



我是標準的“乞丐,許大願”哈哈!


ChatGPT 說:

太棒了!以下是為你量身打造的「從 TinyLlama 到 LLaMA 3」AI Fine-Tuning 技能樹,幫你像 RPG 一樣慢慢升級練功,最後挑戰神級模型!

AI Fine-Tune 技能樹:從 TinyLlama 到 LLaMA 3
Lv. 1:新手訓練營 — TinyLlama 1.1B / GPT2
任務:

熟悉 Hugging Face transformers / datasets 基礎

資料清洗與 tokenize

LoRA / QLoRA 精簡訓練

工具:

PEFT, bitsandbytes, wandb, accelerate

挑戰:

自製語料:教學文章、遊記、日記

中英文混合訓練

Lv. 2:見習訓練師 — Phi-2 / Mistral 7B / LLaMA 2-7B
任務:

設定 GPU 利用率(gradient checkpointing、fp16/bf16)

建立推論 API(FastAPI, Gradio)

訓練你的人格語氣模型

挑戰:

推論延遲優化

多回合 QA、角色對話模擬

成果:

「陪伴家人的小模型」雛型

Lv. 3:資深訓練師 — LLaMA 2 13B / Yi-34B / DeepSeek-33B
任務:

使用 QLoRA + FlashAttention + Gradient Accumulation 節省記憶體

高效資料格式(Parquet、Streaming Dataset)

評估指標(Perplexity、BLEU、Rouge、custom eval)

挑戰:

跨語言訓練(台中日英混合)

多格式語料(字幕、PDF OCR、對話逐字稿)

端對端流程自動化

Lv. 4:宗師訓練場 — Mixtral 45B(MoE) / LLaMA 3 70B(推論)
任務:

嘗試 model parallel / 多 GPU 分布式訓練(未來用 2 張 5090)

推論時使用 vLLM, Exllama, TensorRT-LLM

結合 LangChain / RAG 系統

挑戰:

角色人格風格強化訓練(「爸爸說話」、「退休數學教授」、「談判顧問」模式切換)

知識庫接入(本地 vector store + 檢索器)

Lv. MAX:智慧傳承者 — 你的人生 LLM
任務:

整理你一生的作品、語錄、對話、講課、教學影片文字

建立私人 AI:讓家人與後人可以用自然語言與你對話

挑戰:

資料完整性、語氣模擬準確度

訓練的「記憶連貫性」與人格持續性

Bonus 技能解鎖路線
Trainer → SFT → RLHF → DPO → Reinforced Mixture Expert

OpenWebText → MyCorpus → DialogFineTune → MultiPersona RAG



綜 覽 全 部 討 論

總 覽版 務政 經健康醫療軍 武理 財文 化藝 文科 技台灣的美旅 遊PISA娛 樂鄉 土公 民認 同副 刊哈 啦范氏網
竹縫
視界
耳聾
世界
泰伯
觀點
Joy
隨筆
哈利
天地
Jerry C
鳥 世 界
射水魚
天 空
討海人
鏡 頭
嘻笑
人間
詩情
畫藝
老工仔
思 維
網網
相連
歷史
庫存


* 討論區內之言論,不代表本園之立場,一切法律責任仍由發言者本人負責
* 如果您有任何不當言論,本園有權決定是否保留您所送貼的意見 。