大模型部署需要极高的配置,个人折腾的目的是为了实现智能知识库,以及视频的助手,而不是全量的ai助手

模型

模型名称

简介

DeepSeek

具备自主推理能力,可以使用正常的对话语气获得回答。

Llama

由Meta开发的通用语言模型,擅长多种语言任务,如文本生成、问答等。Llama 3.1(8B参数)是其较受欢迎的版本之一,文件大小约4.7GB。

Qwen

阿里云推出的模型,具备强大的语言理解和生成能力。Qwen 2(7B参数)文件大小约4.4GB,适合多种应用场景。

Gemma

谷歌推出的模型,注重语言的准确性和逻辑性。Gemma 2(9B参数)文件大小约5.5GB,适合需要高精度的语言任务。

Mistral

以高效和性能平衡著称,适合资源有限的设备。Mistral(7B参数)文件大小约4.1GB。

Phi

专注于生成高质量文本,适合创意写作等任务。Phi 3(3.8B参数)文件大小约2.3GB。

GLM

智谱推出的模型,适合中文处理任务。GLM 4(9B参数)文件大小约5.5GB。

CodeLlama

专为代码生成和理解优化的模型,适合编程辅助等场景。CodeLlama(7B参数)文件大小约3.8GB。

LLaVA

结合视觉和语言能力的模型,适合多模态任务。LLaVA(7B参数)文件大小约4.5GB。

模型部署

Ollama

  • 部署方便,能够对外提供AI接口,有很多工具支持;

  • 缺乏自定义选项,比如Embedding模型未提供配置;

关于局域网访问

Ollama 服务使用环境变量 OLLAMA_HOST 来指定监听的地址,默认情况下,它只监听 localhost,即只能本地访问。如果要让局域网内其他设备访问 Ollama 服务,需要将 OLLAMA_HOST 设为 0.0.0.0。

在 Windows 中,可以通过以下步骤来设置环境变量 OLLAMA_HOST:

  • 打开系统属性:

    • 右键点击 此电脑 或 计算机,选择 属性。

    • 在左侧点击 高级系统设置。

  • 环境变量:

    • 在弹出的窗口中,点击 环境变量。

  • 新建系统环境变量:

    • 在系统变量部分,新建两个变量。

    • 在变量名输入框中,输入 OLLAMA_HOST,在变量值输入框中,输入 0.0.0.0,然后点击确定。

    • 在变量名输入框中,输入 OLLAMA_ORIGINS,在变量值输入框中,输入*,然后点击确定。

  • 重启命令行窗口:

    • 设置完成后,确保关闭并重新打开命令行窗口,使新的环境变量生效。

  • 使用 Windows 防火墙开放端口

    • 方法一:使用 Windows 防火墙图形界面

      1. 打开 控制面板,搜索并选择 Windows Defender 防火墙。

      2. 在左侧点击 高级设置,进入高级防火墙设置页面。

      3. 在左侧菜单中,点击 入站规则,然后在右侧点击 新建规则。

      4. 选择 端口 作为规则类型,然后点击 下一步。

      5. 选择 TCP,并在 特定本地端口 一栏中输入 11434,然后点击 下一步。

      6. 选择 允许连接,点击 下一步。

      7. 根据需求选择应用的网络类型(域、专用或公用),点击 下一步。

      8. 为这条规则命名(如 “Allow Ollama Port 11434”),然后点击 完成。

    • 方法二:使用命令行快速开放端口

      • 打开 命令提示符(以管理员身份运行),使用以下命令为 Ollama 服务开放 11434 端口(TCP 协议):netsh advfirewall firewall add rule name="Allow Port 11434" dir=in action=allow protocol=TCP localport=11434

      • 如果 Ollama 使用的是 UDP 协议,可以将命令中的 TCP 改为 UDP:netsh advfirewall firewall add rule name="Allow Port 11434" dir=in action=allow protocol=UDP localport=11434

    • 你可以通过以下命令确认规则是否正确添加:netsh advfirewall firewall show rule name="Allow Port 11434"

  • 测试 Ollama 服务是否在局域网中可访问:

    • 通过局域网中的另一台设备,在浏览器中输入以下地址进行测试:http://<你的本机IP地址>:11434 。如果服务成功启动,页面应显示 Ollama API 的相关信息,表明你的服务已经能够在局域网中正常访问。

LM-Studio

  • CPU-GPU混合推理工具

  • 一站式软件,提供丰富的功能,快速进行ai对话;默认嵌入式模型或者模型与ollama中的不同,直观感受更快;

  • 不提供接口,无法被其他工具快速利用;

huggingface被墙,需要修改模型网站的地址,参考流程

  1. 使用管理员特权,在power shell打开目录 C:\Users\xxx\AppData\Local\LM-Studio

  2. powershell中输入:findstr /s /i /m /c:"huggingface.co" .

  3. 打开路径C:\Users\xxx\AppData\Local\LM-Studio,修改上一步中找到的js文件,把所有的huggingface.co都替换成hf-mirror.com

  4. 重新开启lm,然后下载模型使用

LocalAI

docker限定,本地运行ai模型,解决个人从文本到视频的ai需求。

Code插件

Continue

参考:支持直连本地模型!不花一分钱的 AI 代码助手插件:Continue 详细教程

Continue 是一款 VSCode 和 JetBrains 插件,它本身不提供 AI 模型,提供了多种接入 AI 模型的方法,支持连接到本地的模型,来实现多种场景下的功能。

优势:

  • 在几款支持本地 AI 的代码插件中,continue支持中文问答。

  • continue支持提交文件,进行ai问答。

由于代码助手的场景很多样,不同的模型的侧重点也不同,不能用一套 OpenAI API 打天下。

比如最常见的 Tab 补全,表现最好的是 3B 大小的模型,因为速度最快。而 Chat 模型则可以用一些 GPT 4o、Claude 3.5 Sonnet 这样的常用对话模型。

Continue 目前根据用途,将模型分为下面这 4 种(下面链接内有更详细的解释):

#todo

Continue+Deepseek实现AI编程辅助

20250102更新:Deepseek以超低成本打入开源模型前列,可以试试。

Cline(Claude Dev)

Claude Dev 是一个功能强大的 VSCode 插件,旨在通过自动化任务执行和链式思维提示,帮助开发者高效完成各种编程任务。它不仅能创建和编辑文件,还能执行终端命令,提供人机协作的编程体验。用户可以通过简单的指令启动任务,Claude Dev 会在每一步操作前请求用户许可,确保安全和可控。类似cursor的插件,好像固定英文对话。

cline,之前叫做 claude dev,是一个 ai 编程的 agent,一站式解决方案,类似 v0,bolt.news,更强大。prompt with more context in app out,每次都是如此,所以 cline 是最耗费 token。

第二个用 cline 的原因是当时要开发的应用很简单。当应用复杂之后,要进行局部细节的处理,cline 面临了两个问题:

  • 成本剧增,经常一个功能的开发调试 10 美元。

  • 细节处理能力弱,经常反复覆盖。有点像抽卡,有时候会陷入地狱。

  • 创建和编辑文件

  • 执行终端命令

  • 任务历史记录和恢复

  • 支持 OpenAI 兼容 API

  • 读取 .pdf 和 .docx 文件

  • 任务执行循环和链式思维提示

安装流程

  1. 打开 VSCode。

  2. 进入扩展市场,搜索 “Claude Dev”。

  3. 点击安装按钮,等待安装完成。

  4. 安装完成后,重启 VSCode。

使用指南

  1. 启动任务:按下 Cmd + Shift + P,输入 Claude Dev: Open In New Tab,开始一个新任务。

  2. 创建和编辑文件:在任务中,Claude Dev 可以根据你的指令创建或编辑文件。你可以在编辑器中查看和修改 Claude 的更改。

  3. 执行终端命令:Claude Dev 可以执行终端命令,但每次执行前会请求你的许可。你可以在聊天窗口中查看命令输出,并根据需要响应或终止长时间运行的进程。

  4. 任务历史记录:你可以查看和恢复以前的任务,方便管理和追踪项目进度。

  5. 支持多种文件格式:Claude Dev 支持读取 .pdf 和 .docx 文件,可以将文档内容转化为代码或项目文件。

  6. 链式思维提示:Claude Dev 使用链式思维提示,帮助你逐步完成复杂任务。每一步操作前都会请求你的许可,确保任务执行的安全性和可控性。

详细操作流程

  1. 创建新文件:在任务窗口中输入 create new file <filename>,Claude Dev 会创建一个新文件并打开编辑器。

  2. 编辑文件:输入 edit file <filename>,Claude Dev 会打开指定文件,你可以在编辑器中进行修改。

  3. 执行命令:输入 execute command <command>,Claude Dev 会在终端中执行该命令,并将输出显示在聊天窗口中。

  4. 查看任务历史:输入 view task history,Claude Dev 会显示所有任务的历史记录,你可以选择恢复某个任务。

  5. 读取文档:输入 read document <filename>,Claude Dev 会读取指定的 .pdf 或 .docx 文件,并将内容转化为代码或项目文件。

CodeGPT

类似continue的插件,同样支持vscode和idea,能够使用本地ai,并且支持代码补全,设置简单;

未发现修改问答语言的设置,会以英文应答。

AI工具

Open WebUI

Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 WebUI,旨在完全离线操作。它支持多种 LLM 运行器,包括 Ollama 和兼容 OpenAI 的 API。

网站形式,后台用ollama提供算力,win下部署比较麻烦,推荐docker部署。

优点:

  • ollama官方的方案,能构建ai问答网站,进化迅速,现在能够猜测提问者的意图,尝试补全问题;

官方文档中的核心功能:

  • 自定义构建新模型;

  • 自定义知识库、工具、函数;

  • 支持OpenAI API兼容格式;

  • 集成RAG和基于RAG的网络检索;

  • Markdown和Latex渲染支持;

  • 支持语音、绘图等;

  • 模型竞技场;

  • 自定义用户角色和权限(RBAC);

  • 响应式设计,支持PWA;

  • 多语言支持;

Page Assist:本地模型联网

Page Assist 是一款开源的浏览器扩展程序,旨在为本地 AI 模型(如 Ollama)提供便捷的交互界面。它通过侧边栏或 Web UI,让用户可以在浏览网页时直接与本地 AI 模型对话,支持联网搜索以获取最新信息,并兼容多种文档格式(如 PDF、TXT 等)。此外,Page Assist 支持主流浏览器(如 Chrome、Edge 等),所有交互均在本地完成,确保用户隐私安全。edge目前可以直接搜到,chrome需要翻墙。

下载后击 Page Assist 插件图标,它会自动检测到正在运行的 Ollama。在插件界面的上方下拉菜单中,可以自动识别已经安装的模型。在对话框底部有一个地球标志,点击打开即可开启网络搜索功能。

  • 实际使用时,联网搜索非常的慢

Chatbox

Chatbox 是一款开源的 AI 客户端,专为与各种大型语言模型进行交互而设计。它支持包括 Ollama 在内的多种主流模型的 API 接入,无论是本地部署的模型,还是其他服务提供商的模型,都能轻松连接。此外,Chatbox 提供了简洁直观的图形界面,让用户无需复杂的命令行操作,就能与模型进行流畅的对话。它支持了目前市面上所有主流模型,并且兼容多个平台,交互体验也比较好。

可以通过官网下载,或者通过scoop install chatbox-ce 使用。

下载后打开客户端,模型提供方选择 Ollama API,API 域名就是我们上面提到了本地 11434 端口的服务,另外它可以自动识别你的电脑上已经通过 Ollama 安装的模型,然后就可以在聊天窗选择到本地模型了。

  • 缺点:Chatbox 提供了联网功能,但是本地模型是没办法联网的。

Cherry-Studio

官网提供网盘,可去GitHub下载

#todo

知识库

Blinko

新的ai笔记软件,能够使用ai整理笔记,以问答形式使用笔记;

  • 优点:能够调用openai或者ollama(20241127测试虚拟机docker中部署,无法调用宿主机)的api,处理记录的笔记;本地存储、样式丰富;20241219更新:官方支持ollama,但是没有测试通过;

  • 缺点:没有本地客户端;编辑体验相对一般;

AnythingLLM:本地知识库

Anything LLM 是一款基于 RAG架构的本地知识库工具,能够将文档、网页等数据源与本地运行的大语言模型(LLM)相结合,构建个性化的知识库问答系统。它支持多种主流模型的 API 接入方式,如 OpenAI、DeepSeek 等。Anything LLM 还支持直接贴网页链接来构建知识库。Anything LLM 本身还提供了非常强大的 Agent 能力,例如网页深度抓取、生成图表、链接 SQL 数据库、等等。

RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合信息检索与生成模型的人工智能技术,旨在通过检索外部知识库中的信息来增强语言模型的生成能力。

有点抽象,简单来说就是一种让 AI 更聪明回答问题的方法,它分为三个步骤:找资料、整理资料和回答问题。首先,它会在一个知识库(就像一个装满资料的书架)里找到和问题相关的部分;然后,把找到的内容整理成简单易懂的形式;最后,用整理好的内容生成一个清晰准确的回答。这种方法让机器的回答更准确、更有依据,还能随时更新知识库,用最新的信息来回答问题。

主要有三个概念:LLM(Large Language Model,大语言模型)、Embedding(嵌入)和 Vector Database(向量数据库)。

  • Embedding(嵌入):通过一个专门的模型来把你上传的文本、表格数据等本地文件处理成机器能理解的 “数字代码”。相似的文本在这个向量空间中距离会更近。比如,“苹果”和“水果”这两个词的嵌入向量就会比较接近,而“苹果”和“汽车”就会离得很远。

  • Vector Database(向量数据库):用来存储上一步处理好的 “数字代码” 的数据库,它能够高效地存储和检索这些向量。当你有一个问题时,它会把问题转换成向量,然后在这个仓库里快速找到和问题最相关的向量。比如,你问“苹果是什么?”它会在这个仓库里找到和“苹果”相关的向量,比如“水果”“红色”“圆形”等。

那这三个概念的协作就组成了 RAG 架构:

  • 检索(Retrieve):当用户提出一个问题时,首先通过 Embedding 模型将问题转换成向量,然后在 Vector Database 中检索与问题向量最相似的文档向量。这一步就像是在图书馆里找到和问题最相关的书籍。

  • 增强(Augment):检索到的文档向量会被提取出来,作为上下文信息,和原始问题一起输入到 LLM 中。这一步就像是把找到的书里的关键内容摘抄下来,整理成一个简洁的笔记,然后交给写作助手。

  • 生成(Generate):LLM 根据整理好的上下文信息,生成一个准确且连贯的回答。这一步就像是写作助手根据笔记,写出一个完整的、让人容易理解的答案。

-安装完成后,打开 Anything LLM 应用,第一步就是选择大模型,这里我们看到 AnythingLLM 同样支持大部分的主流模型提供商,我们选择 Ollama,工具会自动读取我们本地已经安装的模型。下一步是选择 Embedding(嵌入模型)和 Vector Database(向量数据库),选择后设置一个Workspace,就可以开始使用。

嵌入模型其实也非常重要,它处理的准确性直接决定了基于知识库回答的准确度,我们可以看到 OPEN AI 也提供了嵌入模型,而且 OPEN AI 的嵌入模型目前应该是最强大的,但是 OPEN AI 的嵌入模型需要联网和付费。我们这里先选的是默认的 AnythingLLM 提供的嵌入模型,它是完全运行在本地且免费的嵌入模型,当然准确度就比较一般了。然后向量数据库我们也选择默认的 LanceDB,它也是完全运行在本地且免费的。

知识库的质量其实也直接决定了模型基于知识库回答的效果,AI 友好的知识库结构,首先应层次清晰,按主题、领域或功能分类,建立从概括到具体的合理层级,像图书馆分类摆放书籍;还要易于检索,有精准关键词索引、全文检索功能和智能联想,方便快速定位知识;并且通过知识图谱、交叉引用建立数据关联,形成知识网络。典型的结构如下:

# 基础信息
## 人物信息
内容1
## 地理信息
内容2
## 时间信息
内容3

Anything LLM 支持上传多种类型的文件,包括常见的文本文件(如 TXT、Markdown)、文档文件(如 PDF、Word、PPT、Excel)、数据文件(如 CSV、JSON) 等。把知识库文件上传,并且添加到当前工作区,点击保存。然后就可以针对知识库文件进行提问。

Anything LLM 还支持直接贴网页链接来构建知识库,我们尝试贴一个 Vue 的文档进去,能够进行问答。不过网页一般都属于非结构化的数据,不利于模型检索,推荐还是先在本地处理成 AI 友好的格式再上传,效果更好。

Anything LLM 本身还提供了非常强大的 Agent 能力,例如网页深度抓取、生成图表、链接 SQL 数据库、等等。也支持 Web 搜索的 Agent,测试的话推荐大家选 SearXNGDuckDuckGo 两个免费的搜索引擎,当然效果不如付费的 Google、Bing 的要好。在设置》代理》web的中可以看到网络搜索。

在聊天区打出 @ 就可以调起 agent。

MaxKB

是一款基于大语言模型和 RAG 的开源知识库问答系统,广泛应用于智能客服、企业内部知识库、学术研究与教育等场景。

特点是能够快速构建ai网站,并且方便生成文档库;

同样需要后端提供算力;

推荐docker部署。

沉浸式翻译

能够利用ai进行翻译的插件,网页端可以保留原文,支持本地ollama;

  • 实时翻译外语网页,PDF翻译,EPUB电子书翻译,视频双语字幕翻译等。

  • 自由选择调用DeepL、Gemini等人工智能引擎来翻译上述内容。

  • 在手机上也可以随时随地用哦

在线 API

通过 Chatbox + SiliconFlow 这样的在线服务,也可以很方便的体验满血版的 DeepSeek R1 ,只需要注册 SiliconFlow 后获取到 API 密钥,然后将其配置到模型设置里即可。

硅基流动

以华为鲲鹏平台为基础,提供满血的r1模型和其他模型。

缺点:使用起来响应非常慢,r1速度直观感觉不如4070m运行的8b。

火山引擎

字节旗下云服务平台,提供云基础、视频与内容分发、数智平台VeDI、人工智能、开发与运维等服务。现有ds的api可用,不过必须实名开通才行。

  • 使用:

    • 登录火山引擎官网,从【大模型】下拉选择【火山方舟】,进入之后,左边【在线推理】,然后选择【创建推理接入点】。

    • 按提示编辑后,点击【API调用】,上面创建好之后,会生成一个自己专属model endpoint ID,后面接入需要用到,先复制下来。

    • 接下来选择【API调用】,选择【通过API KEY授权】-【选择API Key并复制】。

    • 点击【创建API key】,并复制API。

    • 点击【创建】,例如定义名字【deepseek-R1-20250214】

    • 现阶段可用使用cherry-studio等使用。

硬件

  1. N卡最简单,消费级硬件先看显存;除了消费级硬件,还有一些计算卡,参考页面 世上最全NVDIA GPU参数列表: V100, A100, A800,H100,3090,4090, A40, A30等性能参数 - 知乎

  2. AMD可以使用ROCm运行模型,速度相对比较慢,不过显存比N卡便宜一点;A家的计算卡相对也比较便宜,但是不太推荐,比较折腾,性能也差,显存也不比n卡的大船货大;

    1. AMD的新AI MAX系列CPU,也是统一架构,内存、显存混用,最大128g,可分出96g做显存,整体价格比苹果便宜;

  3. I家的卡也可以跑,Intel本身就是计算卡跟显卡同架构,可以利用Intel自己的ONEAPI框架运行模型,A770 16G以上性能可用;

  4. Mac的统一架构,可以跑较大的模型;

  5. 现在NPU依赖产品官方的支持,比如rk3588的npu,官方并没有给出很好的框架,反而依赖板子厂家和个人开发者;

Reference