DeepSeek 全球產業集成專題

Ollama引擎快速安裝DeepSeek R1量化剪裁版完整命令流

發布時間:2026年05月20日   |   閱讀對象:全球 IT 決策者與架構師

各位香港嘅科技同好、IT 主管、以及對人工智能充滿熱情嘅朋友仔,大家好!我係你哋嘅本地科技博主,專注於技術 SEO、網絡安全同大模型基礎設施。今日,我哋要探討一個極具實用價值嘅主題:點樣透過 Ollama 引擎,極速安裝並運行 DeepSeek R1 量化剪裁版大語言模型。呢個方案對於希望喺本地環境、尤其係顯示卡資源有限嘅情況下,運行高效能 AI 模型嘅中小企同開發者嚟講,絕對係一個遊戲規則嘅改變者。

喺現今數字轉型嘅浪潮下,將大語言模型(LLM)部署到本地已成為越來越多企業嘅選擇。佢唔單止能有效保障數據私隱,減少對第三方服務嘅依賴同潛在嘅高額費用,仲可以為內部應用提供更低延遲、更高彈性嘅智能服務。而 Ollama 呢個神器,正正將呢個過程簡化到極致。

DeepSeek 模型系列以其卓越嘅性能同開源精神,喺 LLM 領域佔有一席之地。特別係佢哋嘅量化剪裁版本,更係為咗適應各種硬件環境而生。今日嘅教學,我哋會由零開始,帶你行過每一個步驟,確保你能夠順利喺你嘅機器上部署 DeepSeek R1,體驗本地 AI 嘅強大威力!

點解要用 Ollama?本地大模型部署新趨勢

Ollama 係一個嶄露頭角嘅工具,佢將喺本地運行大型語言模型嘅過程變得前所未有咁簡單。對於香港嘅企業,特別係中小企,佢提供咗一個極具吸引力嘅解決方案,可以喺無需投入大量雲端資源嘅情況下,享受到 AI 帶嚟嘅便利。

Ollama 嘅優勢

  • 操作簡易: 告別複雜嘅模型下載、環境配置同埋 CUDA/ROCm 依賴管理。Ollama 將所有嘢打包好晒,一條命令搞掂。
  • 跨平台支援: 無論你用緊 macOS (包括 Apple Silicon)、Windows 定係 Linux,Ollama 都有原生支援,兼容性一流。
  • 模型管理: 提供統一嘅命令列介面(CLI),方便你拉取(pull)、運行(run)、甚至創建(create)同管理唔同嘅模型,好似 Docker 咁方便。
  • API 兼容性: 內置 HTTP API,令開發者可以輕鬆將本地運行嘅 LLM 整合到現有應用程式中,支援標準嘅 OpenAI API 格式,大大降低開發難度。
  • 資源效率: 相對於自己手動配置,Ollama 通常能更好地管理系統資源,尤其係顯示卡嘅 VRAM,有助於喺有限硬件上發揮最大效能。

本地部署嘅實際價值

  • 數據私隱保障: 喺香港呢個高度重視數據安全嘅社會,將敏感數據留喺本地進行處理,係好多行業(例如金融、法律、醫療)嘅硬性要求。本地部署可以有效避免數據外洩風險。
  • 成本效益: 長期嚟講,本地部署可以大幅削減雲端 API 調用嘅費用。對於預算有限嘅中小企嚟講,呢個係一個非常重要嘅考慮因素。
  • 低延遲與穩定性: 本地運行意味著無需透過網絡傳輸數據,推理延遲更低,反應速度更快,同時亦唔受網絡波動影響。
  • 自主掌控權: 你可以完全掌控模型嘅版本、配置同埋未來嘅微調方向,為企業嘅數字轉型提供更大彈性。

DeepSeek R1:中小企嘅智能選擇

DeepSeek 模型系列由中國嘅 DeepSeek AI 團隊開發,佢哋以卓越嘅性能同開源精神,喺全球範圍內都獲得咗廣泛認可。佢哋提供咗多種模型,由通用型語言模型到專為編程設計嘅 DeepSeek Coder,性能都非常出色。

DeepSeek 模型系列簡介

DeepSeek-LLM 係一個開放源碼嘅大型語言模型系列,基於強大嘅 Transformer 架構。佢哋喺多個基準測試中表現出色,特別係中文處理能力同埋指令遵循方面,對中文用戶嚟講尤其友好。

點解揀 R1 量化剪裁版?

「量化剪裁版」係本地部署大型模型嘅關鍵技術。

  • 量化(Quantization): 簡單嚟講,就係將模型嘅參數由高精度(例如 16 位浮點數)降低到低精度(例如 4 位或 8 位整數),從而大幅縮小模型檔案體積,並減少運行時所需嘅記憶體同計算資源。呢個過程雖然會帶嚟輕微嘅性能損失,但喺絕大多數應用場景下,性能差異係可以接受嘅。
  • 剪裁版(Trimmed Version): 「R1」喺呢度通常暗示住一個資源優化或者特定版本,針對特定場景或硬件配置進行咗調整,使其更易於部署同運行,或者係模型架構上嘅某種精簡。對於 DeepSeek 嚟講,佢哋提供咗唔同參數規模同埋量化程度嘅模型。選擇一個適中嘅量化剪裁版本(例如 7B-instruct-q4_K_M)係平衡性能同資源需求嘅最佳選擇。

呢個組合對於配備中階顯示卡(例如 8GB 或 12GB VRAM)嘅工作站甚至係筆記型電腦嚟講,都係一個理想嘅選擇。佢讓香港嘅中小企喺唔使購買昂貴顯示卡嘅前提下,依然可以享受到強大嘅本地 AI 能力。

DeepSeek 香港企業應用架構演示 圖示:DeepSeek 模型喺香港企業內部部署嘅潛力架構,強調本地化與高效能。

環境準備:部署前嘅必要功課

「工欲善其事,必先利其器。」喺我哋開始部署之前,有啲基本嘅硬件同軟件要求需要確保。

硬件要求

  • CPU: 現代多核心處理器,例如 Intel Core i5/Ryzen 5 或更高版本。雖然主要計算會交畀顯示卡,但 CPU 依然負責數據預處理同協調。
  • RAM (記憶體): 最低 8GB,推薦 16GB 或以上。運行大型模型需要大量記憶體來加載模型參數同處理上下文。
  • GPU (顯示卡):
    • NVIDIA: 推薦使用支援 CUDA 嘅 NVIDIA 顯示卡。VRAM(顯示記憶體)係關鍵。對於 DeepSeek R1 量化剪裁版(例如 7B 級別嘅 q4 量化),至少需要 8GB VRAM,推薦 12GB 或以上以獲得更好嘅性能同處理更長嘅文本。型號例如 RTX 3060/4060 或以上。
    • AMD: 支援 ROCm 嘅 AMD 顯示卡(主要適用於 Linux)。
    • Apple Silicon: 搭載 M1/M2/M3 晶片嘅 Mac 電腦,Ollama 會利用 Apple Neural Engine (ANE) 或 GPU 進行加速。
    • 如果冇顯示卡或者 VRAM 不足,Ollama 亦會回退到 CPU 模式,但速度會明顯慢好多。
  • 儲存空間: SSD 固態硬碟係必須嘅,因為模型檔案通常較大(幾 GB 到幾十 GB),快速嘅讀寫速度對於加載模型至關重要。確保有足夠空間,例如 50GB 或更多,以備將來安裝其他模型。

軟件要求

  • 作業系統: Windows 10/11、macOS (Ventura 或更高版本) 或 Linux (Ubuntu 20.04+、Fedora 37+ 等)。
  • GPU 驅動:
    • NVIDIA 用戶: 確保你嘅顯示卡驅動係最新版本。通常需要安裝 NVIDIA CUDA Toolkit (雖然 Ollama 會自動管理好多嘢,但最新驅動總係好啲)。
    • AMD 用戶: 確保你嘅 ROCm 環境已正確配置。

Ollama 快速安裝與 DeepSeek R1 量化剪裁版部署命令流

嚟到戲肉喇!我哋會詳細列出每一個命令,確保你能夠順利完成整個部署過程。

步驟一:安裝 Ollama 引擎

首先,我哋需要安裝 Ollama。佢嘅安裝過程非常簡單。

  • Windows 用戶:

    1. 前往 Ollama 官方網站:https://ollama.com/download
    2. 下載 Windows 安裝包,然後按照提示進行安裝。
    3. 安裝完成後,Ollama 會喺背景自動運行。
  • macOS 用戶:

    1. 前往 Ollama 官方網站:https://ollama.com/download
    2. 下載 macOS 應用程式,將佢拖到「應用程式」資料夾。
    3. 打開 Ollama 應用程式,佢會喺系統背景運行。
  • Linux 用戶: 打開你嘅終端機,運行以下命令:

    curl -fsSL https://ollama.com/install.sh | sh
    

    呢條命令會自動下載並安裝 Ollama。安裝完成後,Ollama 服務會自動啟動。

  • 驗證安裝: 無論你用咩作業系統,打開終端機(或命令提示字元),輸入以下命令:

    ollama -v
    

    如果顯示 Ollama 版本資訊,就代表安裝成功!

    ollama version is 0.1.X  # 類似咁嘅輸出
    

步驟二:拉取 DeepSeek R1 量化剪裁版模型

Ollama 將模型拉取變得好簡單。喺 DeepSeek 嘅眾多模型中,我哋會選擇一個適合本地部署嘅量化剪裁版。以 deepseek-llm:7b-instruct-q4_K_M 為例,佢係一個 70 億參數、經過 q4_K_M 量化嘅版本,非常適合喺 8GB-12GB VRAM 嘅顯示卡上運行。

打開終端機,運行以下命令:

ollama pull deepseek-llm:7b-instruct-q4_K_M
  • 命令解釋:
    • ollama pull:指示 Ollama 從官方模型庫下載模型。
    • deepseek-llm:7b-instruct-q4_K_M:呢個係模型嘅完整標識符。
      • deepseek-llm:模型系列名稱。
      • 7b-instruct:模型參數規模(70 億參數)同埋係指令微調版本。
      • q4_K_M:量化策略,表示 4 位元量化,使用 K_M 優化。

Ollama 會開始下載模型。呢個過程可能需要一啲時間,具體取決於你嘅網絡速度同模型大小(通常幾個 GB)。耐心等待下載完成,你應該會見到進度條同完成提示。

步驟三:運行 DeepSeek R1 模型進行本地推理

模型下載完成後,你就可以立即運行佢進行互動式對話喇!

ollama run deepseek-llm:7b-instruct-q4_K_M
  • 命令解釋:
    • ollama run:指示 Ollama 運行指定嘅模型。

當你運行呢條命令後,模型會加載到你嘅記憶體同顯示卡中,然後你會見到一個提示符,你就可以開始同 DeepSeek R1 模型對話喇。

>>> Send a message (/? for help)

示例互動:

>>> 你好,香港嘅天氣今日點樣?
(DeepSeek-LLM): 你好!今日香港天氣係晴朗,氣溫介乎25至30度之間,吹微弱東南風。非常適合戶外活動。你有咩計劃?
>>> 幫我寫一個關於科技博客嘅開頭段落。
(DeepSeek-LLM): 各位香港嘅科技愛好者、IT 專業人士,以及對數字世界充滿好奇嘅朋友仔,大家好!喺呢個瞬息萬變嘅科技時代,資訊嘅更新速度令人目不暇給。作為你嘅本地科技博主,我哋致力於將最新、最實用嘅技術趨勢、深入嘅分析同埋貼地嘅實踐經驗帶畀大家。無論係前沿嘅人工智能,抑或係網絡安全嘅最新防禦策略,我哋都將用最淺白易明嘅語言,為你解構複雜嘅科技世界,助你輕鬆掌握未來脈搏。
>>>

要退出對話模式,請輸入 /bye 或按 Ctrl+D

步驟四:通過 Ollama API 進行程式化調用

Ollama 嘅強大之處在於佢提供咗一個 HTTP API,你可以好似調用 OpenAI API 咁,喺你嘅應用程式中輕鬆整合本地 LLM。Ollama 服務喺後台運行時,默認會喺 http://localhost:11434 監聽 API 請求。

以下係一個簡單嘅 Python 示例,展示點樣通過 Ollama API 調用 DeepSeek R1 模型:

首先,確保你已經安裝咗 requests 庫:pip install requests

import requests
import json

def chat_with_deepseek(prompt):
    url = "http://localhost:11434/api/generate"
    headers = {"Content-Type": "application/json"}
    data = {
        "model": "deepseek-llm:7b-instruct-q4_K_M",
        "prompt": prompt,
        "stream": False # 如果你想 streaming 回覆,設為 True
    }

    try:
        response = requests.post(url, headers=headers, data=json.dumps(data))
        response.raise_for_status() # 檢查 HTTP 請求是否成功
        result = response.json()
        return result.get("response", "未能獲取回應。")
    except requests.exceptions.RequestException as e:
        return f"API 請求失敗: {e}"

if __name__ == "__main__":
    print("同 DeepSeek R1 交流 (透過 Ollama API)。輸入 'quit' 結束。")
    while True:
        user_input = input("你:")
        if user_input.lower() == 'quit':
            break
        
        print(f"DeepSeek:{chat_with_deepseek(user_input)}")

將以上 Python 程式碼保存為 deepseek_api_chat.py,然後喺終端機運行 python deepseek_api_chat.py 就可以試用喇。呢個例子展示咗如何利用 Ollama 的 API 能力,為你的本地應用程序注入 AI 智慧。

本地伺服器與網絡安全概念 圖示:伺服器機房嘅景象,提醒我哋喺本地部署時要考慮網絡安全與基礎設施。

進階優化與常見問題解決

部署咗模型,但想佢運行得更順暢?遇到問題點算好?呢度有啲貼士幫你。

顯示卡資源優化

  • 監控 VRAM 用量:
    • NVIDIA: 打開終端機輸入 nvidia-smi。呢個命令可以實時監控顯示卡嘅 VRAM 用量、GPU 使用率同溫度。
    • Windows: 任務管理器 -> 性能 -> GPU。
    • macOS: 「活動監視器」中可以查看 GPU 歷史使用量。
  • 選擇更小嘅量化版本: 如果你嘅顯示卡 VRAM 仍然不足(例如只有 6GB),可以嘗試拉取更激進嘅量化版本,例如 q2_Kq3_K(如果模型提供)。雖然會進一步犧牲少少精度,但可以換嚟運行能力。
  • 關閉其他 GPU 密集型應用: 確保喺運行 LLM 時,盡量關閉其他會佔用顯示卡資源嘅程式,例如遊戲、影片編輯軟件或者其他 AI 程式。
  • 調整 Ollama 環境變量: 喺極端情況下,你可以嘗試設置 Ollama 嘅環境變量,例如 OLLAMA_FLASH_ATTENTION=1 (需支援) 或 OLLAMA_MAX_VRAM_OVERRIDE (不推薦隨意設置,除非你清楚知道其影響)。

網絡安全考量

雖然本地部署本身就係一種提升數據私隱同安全嘅方式,但依然有幾點需要注意:

  • API 接口保護: 如果你將 Ollama API 暴露畀局域網內嘅其他設備,應考慮防火牆規則,只允許受信任嘅 IP 地址訪問。如果需要從外部網絡訪問,務必透過 VPN 或者設置嚴格嘅身份驗證同授權機制。
  • 系統更新: 定期更新你嘅作業系統同 Ollama 引擎本身,以獲取最新嘅安全補丁同功能改進。
  • 模型來源: 雖然 DeepSeek 係一個知名開源模型,但喺拉取任何模型時,都應確保來源可靠,避免惡意模型。Ollama 官方庫通常都係經過審核嘅。

提升推理速度

  • 更強大嘅顯示卡: 最直接嘅方法就係升級顯示卡,特別係 VRAM 容量同計算能力更強嘅型號。
  • 使用 Ollama 官方客戶端庫: Ollama 亦提供咗 Python、JavaScript 等語言嘅官方客戶端庫,佢哋通常會對性能有更好嘅優化,例如自動處理 stream 模式、批處理請求等。
  • 批處理請求(Batching): 如果你嘅應用程式需要同時處理多個輸入,可以利用 Ollama API 嘅批處理功能,將多個請求打包一次性發送,減少網絡延遲同 GPU 空閒時間。

常見錯誤與排除

  • "Error: model 'deepseek-llm:7b-instruct-q4_K_M' not found":
    • 檢查模型名稱是否打錯字。
    • 確認網絡連接正常,Ollama 能夠訪問模型庫。
    • 嘗試重新執行 ollama pull 命令。
  • "Error: out of memory" 或類似 VRAM 不足嘅提示:
    • 你嘅顯示卡 VRAM 可能不足以運行當前模型。
    • 嘗試拉取更小嘅模型版本或者更低量化嘅版本(例如 deepseek-llm:7b-instruct-q2_K)。
    • 關閉其他佔用 VRAM 嘅程式。
  • "Error: connection refused" 或無法連接 Ollama 服務:
    • 確保 Ollama 服務正在運行。喺 Windows/macOS,檢查應用程式是否已打開;喺 Linux,可以嘗試 systemctl status ollama 檢查服務狀態,必要時用 systemctl start ollama 啟動。
    • 檢查防火牆設置,確保 11434 端口未被阻擋。

總結:香港數字轉型嘅新里程碑

通過呢個詳細嘅教學,相信大家已經掌握咗點樣喺本地環境中,利用 Ollama 引擎快速安裝並運行 DeepSeek R1 量化剪裁版大語言模型。呢個唔單止係一個技術部署嘅過程,更係為香港嘅中小企同個人開發者開啟咗一扇大門,讓大家能夠以更低嘅成本、更高嘅效率、更強嘅數據私隱保障,擁抱人工智能時代。

喺香港,數字轉型嘅步伐從未停歇。透過本地部署 LLM,我哋可以為各行各業提供定制化嘅智能解決方案,無論係客戶服務、數據分析、內容生成定係內部知識管理,DeepSeek R1 都能夠提供強大支援。呢種自主可控嘅 AI 能力,將成為我哋喺國際競爭中脫穎而出嘅重要籌碼。

希望今日嘅分享能夠對你有所啟發同幫助。如果你喺部署過程中遇到任何問題,或者有任何心得想交流,都歡迎留言討論。我哋一齊推動香港嘅科技發展,共創輝煌嘅數字未來!

多謝大家!

← PREVIOUS
DeepSeek自動化代碼審查:香港軟體工程師的高效編程助手
NEXT →
Supersonic CDN加速DeepSeek API接口響應速度優化實戰

📂 相關技術集成動態

查看完整技術中心 »