Ollama和ComfyUI：生产力和多媒体

ai cpu

语音转文字，推荐whisper.cpp，其次是Sherpa-ONNX

语音助手，实时文字推荐Vosk（旧），sherpa-onnx（新）

本地大模型，首选llama.cpp，其次Ollama，然后是llama-cpp-python

tts文字转语音，推荐Piper TTS

ocr，推荐PaddleOCR

其他综合推荐，opencv，yolo，ffmpeg

开发板里，树莓派知名度相对较高

并不是因为它便宜，而是因为它生态好，新的项目一般都会先或者仅兼容树莓派

我所以了解到的首先是前一段时间比较火的openclaw小龙虾，但是它很快就被新的产品替代，现在热度并不高，它不够持久，也不够唯一

现在接触的比较多的是图文和音视频，我比较喜欢gui方式，比较排斥comfyui之类的工作流，既不是完整的gui，也不是纯粹的api，但是使用到的项目，十有八九，是comfyui的形式

这说明它的生态足够强大，强大到有人专门出课程，卖服务

其次本地生产力，大模型，了解到的是Ollama，cpu友好，模型较多，支持api，是其他软件的底层基础，虽然我用LM Studio，但是它只是易用的gui工具软件，真正的生态还是要Ollama，可以自定义很多自己的功能，完整一些特别的需求

其他如n8n，自动化，生态可以，但是相对小众，也不是我目前感兴趣的地方，现在先记录在这里

我现在制作的懒人包有三种形式

一种是windows的便携python环境

会提前下载好第三方库和对应的模型，用户只需要点击start文件就可以启动，完全离线可用，会拆分为cpu和gpu版本，gpu目前只适配3060，其他的显卡待定

一种是comfyui，有现成的json节点工作流，我只需要参考和复用

大多数是拿别人优化好的，然后解决一些插件等问题

一种是docker，这种是在上面两者都无法满足的时候，不得已制作的

docker的兼容最好，在windows上它的底层是wsl2，也就是linux，很多ai用到的特性，只有linux支持

目前ai领域视频最重，也是使用场景最多的，比如ai短剧，ai短视频，虚拟数字人等

其次是本地大模型，比如qwen系列，主要用于对隐私比较敏感的企业，比如医院，律所，某些科技公司等

轻量的就是文字，语音和图片，比如ocr，电商图片，字幕，实时会议文字流等

目前我的配置显存较低，使用场景需求主要是博客文章配图，但是目前gemini免费的额度和制作效果还不错，会优先使用云免费api，其次再慢慢优化和测试本地，以备不时之需