
1. GPT
名称 | 简介 |
---|---|
ChatGPT | GPT-4 截止目前(2024.04.15)依然是最强模型 |
Claude | 仅次于 GPT-4 的模型 |
微软 Copilot | 调用 GPT-4 的模型 |
2. AI图片
名称 | 简介 |
---|---|
Stable Diffusion | 免费开源,有大量人维护,目前为止(2024.04.15)可控性最强的方案,主流拥有web-ui、confy-ui两种交互页面方式,本质是一样的,理论上相同参数出的图是一模一样的,两种方式只是界面效率不同 |
Midjourney | 基于Discord使用,拥有模型较为精致,画风讨喜,不容易出怪图(多手指、多手臂等),使用很简单的描述词也能有较为讨喜的画风,综合效率较高 |
DALL·E 3 | 内置于GPT-4多模态中,最近(2024.04.15)更新了局部重绘,支持中文交互,对prompt的执行度较好 |
3. AI 视频
名称 | 特点 | 官网 |
---|---|---|
SVD | 免费开源,基于Stable Diffusion使用 | Github |
runway | 付费,还未尝试 | runway官网 |
Pika | 付费,还未尝试 | Pika官网 |
Viggle | 基于Discord使用,可根据 ① 图片人物替换指定视频中人物;②让图片根据官网指定prompt提示词做对应动作等 | Viggle官网 |
SadTalking | 可使用图片转视频 | Github |
4. AI 音乐
名称 | 特点 |
---|---|
Suno | v3模型目前综合效果最好,可以根据指定风格描述词做歌,但中文个别字识别和有时候不完全遵循prompt是缺点 |
天工音乐 | 通过app使用,可以上传指定歌曲,模仿曲风 |
5. 视频修复工具
名称 | 特点 |
---|---|
CodeFormer | 效果好,但是本地部署过于硬核,原作者教程过去很久,模型库不匹配,但有其他作者开发出了集成环境的一键运行版 |
6. LipSync 嘴型匹配
名称 | 付费否 | 功能 |
---|---|---|
heygen | 官方网页 / 付费 | 自动翻译 + 嘴型适配 |
rask.ai | 官方网页 / 付费 | 自动翻译 + 嘴型适配 |
wav2lip | 本地 | 音 / 视频合成 + 嘴型适配 |
wav2lip-sync.labs | 云端 | 音 / 视频合成 + 嘴型适配 |
video-retalking | 本地 | 自动翻译 + 嘴型适配 |
7. 声音克隆
名称 | 特点 |
---|---|
GPT-SoVITS | 国人开发,开源免费,对中文适配效果好,但官方界面较复杂 |
elevenlabs | 官方网页 / 付费,语音翻译克隆 |