透過這篇 Stable Diffusion 教學,你將學會如何從零開始安裝開源 AI 繪圖工具,掌握從環境配置到生成高品質圖像的完整流程,並能運用進階技巧解決實際創作中的痛點。生成式 AI 已從技術實驗轉變為數位創作的核心基礎,AI 工具大幅降低了開發與創作的門檻,讓非專業人士也能在數天內產出高品質的視覺作品。
Stable Diffusion 是什麼?開源 AI 繪圖核心概念
Stable Diffusion 是一種基於深度學習的生成式 AI 模型,核心技術是「潛空間」(Latent Space):將文字描述(Prompt)壓縮至低維度空間後逐步還原為高解析度圖像。與早期需要龐大運算資源的模型不同,Stable Diffusion 讓個人電腦也能執行複雜的圖像生成任務,這正是它成為開源 AI 繪圖領域標竿的原因。
即便在多模態 AI 工具百花齊放的 2026 年,圖像生成領域對穩定性與可控性的需求,Stable Diffusion 依然具備明顯優勢。它允許使用者透過調整參數、更換模型(Checkpoint)以及結合 ControlNet 等工具,精準控制生成結果的細節——這與「黑盒子」式的商業 AI 服務形成鮮明對比。
選擇開源 AI 繪圖工具,有三個實際理由。第一,隱私與資料安全:本地運行的 Stable Diffusion 意味著你的創作素材完全不需要上傳至雲端伺服器。第二,開源生態的靈活性:開發者可自由修改程式碼、訓練專屬模型(如 LoRA),這對需要特定風格或商業應用的使用者至關重要。第三,零訂閱費用:無需按月付費,即可享有與付費服務相當的生成能力。
事前準備:系統需求與環境配置
在開始 Stable Diffusion 安裝之前,先確認硬體與軟體環境是否符合要求。
硬體與軟體系統需求
NVIDIA 顯示卡(GPU)是最主流的選擇。建議至少配備 8GB VRAM;若預算允許,12GB 或 24GB 的顯存能顯著提升生成速度與可用解析度。系統記憶體建議 16GB 以上,作業系統支援 Windows 10/11 及主流 Linux 發行版。
Mac 使用者可透過 Apple Silicon 晶片運行,但因統一記憶體(Unified Memory)架構與 NVIDIA CUDA 生態存在差異,部分插件的支援程度較低,生成速度也通常慢於搭載獨立顯卡的 Windows 機器。
Python 環境與依賴套件準備
Stable Diffusion 的運作依賴 Python。建議安裝 Python 3.10 或 3.11(避免使用最新版本,以確保套件相容性)。接著建立虛擬環境,避免套件版本衝突:
python -m venv stable-diffusion-env
啟動環境後(Windows 輸入 stable-diffusion-env\Scripts\activate,Mac/Linux 輸入 source stable-diffusion-env/bin/activate),安裝 PyTorch:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
注意:PyTorch 的 CUDA 版本必須與你的顯卡驅動版本對應。若驅動版本較舊,請先更新 NVIDIA 驅動程式,再安裝對應的 PyTorch,否則容易出現 CUDA out of memory 或程式無法啟動的錯誤。上方指令對應 CUDA 11.8;若你的驅動支援 CUDA 12.x,請改用對應的安裝指令。
Step 1:Stable Diffusion 安裝與基本設定
安裝 Stable Diffusion 有兩種主流方式:使用整合包(以 Automatic1111 WebUI 為代表)或自行部署 ComfyUI。初學者建議從整合包入手,因為它已預先配置好 Python 環境與依賴套件,能大幅降低Stable Diffusion 安裝失敗的機率。
使用 WebUI 或 ComfyUI 安裝步驟
以目前最普及的 Automatic1111 WebUI 為例,從其官方 GitHub 頁面下載整合包後,解壓縮至不含中文字元的路徑(例如 D:\AI\StableDiffusion)。
進入資料夾,執行 webui-user.bat(Windows)或 webui.sh(Mac/Linux)。首次執行時,程式會自動下載所需的模型檔案與依賴套件,依網路速度約需 5 至 30 分鐘。
注意:若下載中斷,請檢查防火牆設定是否封鎖了 Python 的對外連線。台灣使用者若遇到速度不穩定,建議在網路較為穩定的時段執行,下載中斷會導致模型檔案損毀,需重新下載。
模型下載與初始設定
程式啟動後會自動開啟瀏覽器介面。你需要另外下載模型檔案(Checkpoint)—— Hugging Face 與 Civitai 是目前最主要的模型平台。
將下載好的 .safetensors 格式模型檔案放入 stable-diffusion-webui/models/Stable-diffusion 資料夾,重新整理介面後,左上角的下拉選單即可選取新模型。
注意:請從官方或信譽良好的平台下載模型。2026 年的主流模型檔案通常介於 2GB 至 6GB,下載前請確認硬碟空間充足,並優先選擇 .safetensors 格式(比舊版 .ckpt 格式更安全)。
Step 2:第一個實作範例:從提示詞到生成
環境設定完畢後,我們進入Stable Diffusion 怎麼用的第一次實作,核心在於撰寫有效的提示詞(Prompt)與調整參數。
撰寫有效提示詞 (Prompt) 技巧
生成品質高度依賴提示詞的準確性。一個有效的提示詞應包含主體、風格、環境、光線與解析度等要素。
以「未來風格的台北街景」為例:
masterpiece, best quality, 2026 Taipei street, cyberpunk style, neon lights, rain, wet pavement, cinematic lighting, 8k, highly detailed, wide angle
拆解這個提示詞的邏輯:masterpiece、best quality 作為品質提升詞;cyberpunk style、neon lights 定義視覺風格;rain、wet pavement 建立場景氛圍;8k、highly detailed 強調解析度要求。
避免使用互相矛盾的描述,例如同時出現「白天」與「夜晚」——模型無法判斷優先順序,通常會生成混亂的結果。
參數調整與生成預期結果
介面右側的關鍵參數:
- Sampling Steps:建議 20 至 50 步。步數越多細節越豐富,但生成時間線性增加。
- CFG Scale:控制提示詞對生成結果的影響力。超過 15 容易導致色彩過飽和或失真,建議設定在 7 至 9 之間。
- Resolution:從 512×512 開始測試,熟悉後再調整至 1024×1024 或更高。
點擊「Generate」後,依硬體規格等待數秒至數分鐘即可取得結果。若不理想,優先嘗試修改提示詞,其次再調整參數或更換模型。
提示:若生成速度過慢,與其直接提高解析度,不如先以較低解析度生成,再透過 Hires. fix 或放大模型(Upscaler)進行後處理。這個流程通常比直接生成高解析度圖像快 30% 至 50%,且細節品質相近。
Step 3:進階技巧與最佳實踐
能穩定生成基本圖像後,Stable Diffusion 進階技巧的目標是將「隨機生成」轉為「精準控制」。
ControlNet 與 LoRA 模型應用
ControlNet 允許使用者輸入參考圖像(線稿、深度圖、姿勢圖)來約束生成圖像的結構。安裝方式:在 WebUI 的「Extensions」選單中,點擊「Install from URL」,輸入 ControlNet 的官方 GitHub 連結。安裝完成後,在生成介面勾選「ControlNet」,上傳參考圖像,選擇對應模型(如 canny 用於邊緣偵測、lineart 用於線稿),即可生成結構受控的圖像。
LoRA(Low-Rank Adaptation)是用來強化特定風格或角色的輕量級模型,檔案通常只有 50MB 至 200MB。將 LoRA 檔案放入 models/Lora 資料夾,在提示詞中以 格式呼叫即可。
ControlNet 與 LoRA 的權重設定都要謹慎——過高容易導致圖像失真。ControlNet 建議從 0.7 開始、LoRA 從 0.5 開始,逐步微調。
常見錯誤排除與效率提升
顯存不足(Out of Memory)是最常見的問題。幾個有效的處理方式:
- 在啟動指令加入
--medvram或--lowvram參數。 - 安裝
xformers優化套件,可在相同顯存下提升約 20% 至 40% 的生成速度。 - 降低初始生成解析度,再透過
Hires. fix放大。
若生成圖像出現重複紋理或結構異常,通常是 Denoising strength 設定過高,或目前使用的模型對這類提示詞不夠穩定,嘗試切換至其他版本的模型。
定期清理 outputs 資料夾,並保持 WebUI 及插件在最新版本,有助於避免已知的效能問題與安全漏洞。
常見問題 FAQ
Stable Diffusion 安裝失敗如何解決?
最常見的兩個原因:Python 版本不符(請使用 3.10 或 3.11),以及 NVIDIA 驅動版本過舊。更新驅動後若問題仍在,建議改用整合包(One-Click Installer),這類整合包已預先處理大部分相容性問題。另外確認防火牆是否封鎖了 Python 的網路連線——若模型下載在 50% 左右中斷,幾乎可以確定是網路或防火牆問題。
如何優化生成圖片的解析度與品質?
直接生成高解析度容易觸發顯存上限。建議的流程是先生成 512×512 或 768×768 的基礎圖,再用 Hires. fix 搭配放大模型(如 4x-UltraSharp [需驗證])將圖像放大至目標尺寸。這個方式既能保留細節,也比直接生成大圖省時。CFG Scale 偏高(超過 12)時畫面容易過度飽和,適當降低也有助於提升自然感。
免費版與付費版 Stable Diffusion 的差異
Stable Diffusion 本身是開源免費的,核心模型與 WebUI 均無需付費。差異主要在於便利性:Midjourney 等付費服務提供即開即用的介面與穩定的雲端算力,但使用者的生成內容會經過其伺服器,也無法修改底層模型邏輯。需要大量客製化、特定風格訓練,或對資料隱私有要求的使用者,本地部署的 Stable Diffusion 是更適合的選擇。
下一步:開啟你的 AI 創作之旅
透過這篇 Stable Diffusion 教學,你已掌握從環境配置到 ControlNet、LoRA 進階應用的完整流程。開源 AI 繪圖不只是「免費的 Midjourney」,它給你的是完整的控制權——從模型選擇到參數調整,每一個環節都可以依照需求深入定制。
接下來可以嘗試的方向:將生成的圖像應用於 App 介面設計、訓練自己的 LoRA 模型固定特定視覺風格,或結合其他 AI 工具建立自動化的創作流程。持續實驗不同的模型組合,你會
常見問題 FAQ
Stable Diffusion 安裝失敗如何解決?▼
如何優化生成圖片的解析度與品質?▼
免費版與付費版 Stable Diffusion 的差異▼
相關日報
延伸閱讀
Claude 4.8 與 ChatGPT 4.5 實測:企業級應用與 API 成本效益分析
深入實測 Claude 4.8 與 ChatGPT 4.5,分析企業級應用場景、AI API 費用與 Model Benchmark 表現,助您做出最佳成本效益決策。
claude code vs cursorClaude Code 與 Cursor 深度比較:2026 年最佳開發工作流選擇
深入分析 claude code vs cursor,比較兩者功能、價格與實戰體驗。2026 年開發者必讀,助您選擇最適合的 AI 編碼工具與工作流。
claude 4.8 opusClaude 4.8 Opus 實戰:1M 上下文與 Prompt Caching 高效教學
深入解析 Claude 4.8 Opus 實戰應用,掌握 1M 上下文處理與 Prompt Caching 技術。本文提供完整 Claude 教學,幫助您提升 AI 效率與成本效益。
Suno AI 教學Suno AI 是什麼?AI 音樂生成工具完整教學與比較
探索 Suno AI 是什麼?本 Suno AI 教學涵蓋免費使用指南、AI 作曲工具操作步驟,以及 Suno vs Udio 深度比較,助您快速生成專業音樂。
🤖 本指南由 AI 輔助撰寫,經編輯團隊審核校對。如有疑慮,請參閱關於我們。
喜歡這篇?每天早晨還有更多。
訂閱 5min AI,讓 AI 替你追蹤整個 AI 世界。
