个人电脑,适合跑哪个本地大模型?

2025 年 6 月 17 日
 laijh

自己电脑配置:mac mini m2 16g

通过 ollama ,安装了

目的是为了优化公众号文章标题:

import re
from langchain_ollama import ChatOllama
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# 初始化 Ollama 模型
llm = ChatOllama(
    model="gemma3:4b",
)

# 定义提示模板
prompt_template = ChatPromptTemplate.from_template(
    """
    假设你是个具有丰富的爆文经验的微信公众号作者,现提供的"{question}"文章标题,优化标题,只输出最优的那个,结果不需要解释。
    """
)

# 创建处理链
chain = prompt_template | llm | StrOutputParser()

# 示例问题
question = "女人离我远点"

# 调用链并获取纯答案
answer = chain.invoke({"question": question})

clean_text = re.sub(r"<think>.*?</think>", "", answer, flags=re.DOTALL).strip()

# 输出结果
print(clean_text)

分别用了上面的几个模型,跑下来,都比较慢,有没有其他性价比比较高的?

4633 次点击
所在节点    Local LLM
23 条回复
highkay
2025 年 6 月 17 日
你没有显卡肯定慢啊……,而且我觉得感觉你这个是任务的质量大于速度的,从结果讲推荐新版的 r1 蒸馏的 qwen3-8b ,同级别的模型输出的 token 越多,质量越好,一般来讲。
rogerer
2025 年 6 月 17 日
@highkay 据说苹果线上就有服务是跑在 mac mini 上
DendimoN
2025 年 6 月 17 日
1. mlx 格式的快一些
2. 你用的 ollama 是不是只会使用 cpu ?看一下 metal llama.cpp 这个项目,或者直接用 lmstudio 起服务试一下。
wfhtqp
2025 年 6 月 17 日
ollama 怎么用的? docker 的话有没有挂载 gpu 进去?
yoreee
2025 年 6 月 17 日
没有必要本地部署,效果差
Reficul
2025 年 6 月 17 日
7b 的模型太小,效果不太理想。
cF06myaQ57WHKMBv
2025 年 6 月 17 日
本地部署,大的跑不动,小的弱智,还不如直接调用 API 方便,
lcingOnTheCake
2025 年 6 月 17 日
要跑的大模型的话,最起码有 4090D ,比如你安装的 qwen3:8b ,不使用量化版本的话,要吃 20GB 显存,普通显卡根本吃不消
yuuluu
2025 年 6 月 17 日
个人电脑不太适合跑本地大模型.

对于优化公众号标题这个需求, 应该没有本地化的必要吧...
uprit
2025 年 6 月 17 日
你用 M2 肯定慢啊,带宽才 100G ,跑 Q4 量化模型 7B 的也就 20 多 t/s ,速度勉强能接受,能力一塌糊涂。
你想快,要么就换带宽更高的,比如 M1 ultra ,800G 带宽。或者换 N 卡平台,比如 5070ti ,差不多 900G 带宽
要么就得用更小的模型,比如 1.5B 的,快是快了,但能干的活儿不多,只能处理非常非常简单的任务,你这种优化标题的任务就别想了。
再说了,你真要用这种 7B 以下的模型,有些官方的 API 都是免费的,你折腾这个干嘛。
wu67
2025 年 6 月 17 日
没必要, 本地跑‘小’模型, 跑出来的有点像弱智+复读机
laijh
2025 年 6 月 17 日
感谢大佬意见,已改用 deepseek 的线上模型
ly001
2025 年 6 月 17 日
chatbox + api 随便用,简直不要太方便
nailuoGG
2025 年 6 月 17 日
Ollama 已经支持用 meta api 来加速了: https://github.com/ollama/ollama/blob/main/docs/gpu.md

速度慢更可能是内存不够
goodhellonice
2025 年 6 月 17 日
本来我也准备部署本地的。。后来发现远不如在线的。。。现在主要用 gemini grok kimi
loganovo
2025 年 6 月 17 日
本地只能玩玩, 过了新鲜感后, 再也不想点开
fredweili
2025 年 6 月 18 日
这个配置能跑 8b ,4b 就更能了,用流式模式
testliyu
2025 年 6 月 18 日
@wfhtqp cpu 部署的吧
huizai2022
2025 年 6 月 18 日
用硅基流动吧 免费的 8b 模型
coefu
2025 年 6 月 19 日
pc 而言,除了 mac studio m3 ultra 512 之外,就没有能用的了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1139183

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX