ai cpu
语音转文字,推荐whisper.cpp,其次是Sherpa-ONNX
语音助手,实时文字推荐Vosk(旧),sherpa-onnx(新)
本地大模型,首选llama.cpp,其次Ollama,然后是llama-cpp-python
tts文字转语音,推荐Piper TTS
ocr,推荐PaddleOCR
其他综合推荐,opencv,yolo,ffmpeg
.jpg&version_id=null)
ai生态
开发板里,树莓派知名度相对较高
并不是因为它便宜,而是因为它生态好,新的项目一般都会先或者仅兼容树莓派
我所以了解到的首先是前一段时间比较火的openclaw小龙虾,但是它很快就被新的产品替代,现在热度并不高,它不够持久,也不够唯一
现在接触的比较多的是图文和音视频,我比较喜欢gui方式,比较排斥comfyui之类的工作流,既不是完整的gui,也不是纯粹的api,但是使用到的项目,十有八九,是comfyui的形式
这说明它的生态足够强大,强大到有人专门出课程,卖服务
其次本地生产力,大模型,了解到的是Ollama,cpu友好,模型较多,支持api,是其他软件的底层基础,虽然我用LM Studio,但是它只是易用的gui工具软件,真正的生态还是要Ollama,可以自定义很多自己的功能,完整一些特别的需求
其他如n8n,自动化,生态可以,但是相对小众,也不是我目前感兴趣的地方,现在先记录在这里
.jpg&version_id=null)
ai懒人包
我现在制作的懒人包有三种形式
一种是windows的便携python环境
会提前下载好第三方库和对应的模型,用户只需要点击start文件就可以启动,完全离线可用,会拆分为cpu和gpu版本,gpu目前只适配3060,其他的显卡待定
一种是comfyui,有现成的json节点工作流,我只需要参考和复用
大多数是拿别人优化好的,然后解决一些插件等问题
一种是docker,这种是在上面两者都无法满足的时候,不得已制作的
docker的兼容最好,在windows上它的底层是wsl2,也就是linux,很多ai用到的特性,只有linux支持
.jpg&version_id=null)
Tips
目前ai领域 视频最重,也是使用场景最多的,比如ai短剧,ai短视频,虚拟数字人等
其次是本地大模型,比如qwen系列,主要用于对隐私比较敏感的企业,比如医院,律所,某些科技公司等
轻量的就是文字,语音和图片,比如ocr,电商图片,字幕,实时会议文字流等
目前我的配置显存较低,使用场景需求主要是博客文章配图,但是目前gemini免费的额度和制作效果还不错,会优先使用云免费api,其次再慢慢优化和测试本地,以备不时之需
.jpg&version_id=null)