【AIGC-置顶】AIGC各技术概览，持续更新……

2025-04-15

1. GPT

名称	简介
ChatGPT	GPT-4 截止目前(2024.04.15)依然是最强模型
Claude	仅次于 GPT-4 的模型
微软 Copilot	调用 GPT-4 的模型

2. AI图片

名称	简介
Stable Diffusion	免费开源，有大量人维护，目前为止(2024.04.15)可控性最强的方案，主流拥有web-ui、confy-ui两种交互页面方式，本质是一样的，理论上相同参数出的图是一模一样的，两种方式只是界面效率不同
Midjourney	基于Discord使用，拥有模型较为精致，画风讨喜，不容易出怪图（多手指、多手臂等），使用很简单的描述词也能有较为讨喜的画风，综合效率较高
DALL·E 3	内置于GPT-4多模态中，最近(2024.04.15)更新了局部重绘，支持中文交互，对prompt的执行度较好

3. AI 视频

名称	特点	官网
SVD	免费开源，基于Stable Diffusion使用	Github
runway	付费，还未尝试	runway官网
Pika	付费，还未尝试	Pika官网
Viggle	基于Discord使用，可根据 ① 图片人物替换指定视频中人物；②让图片根据官网指定prompt提示词做对应动作等	Viggle官网
SadTalking	可使用图片转视频	Github

4. AI 音乐

名称	特点
Suno	v3模型目前综合效果最好，可以根据指定风格描述词做歌，但中文个别字识别和有时候不完全遵循prompt是缺点
天工音乐	通过app使用，可以上传指定歌曲，模仿曲风

5. 视频修复工具

名称	特点
CodeFormer	效果好，但是本地部署过于硬核，原作者教程过去很久，模型库不匹配，但有其他作者开发出了集成环境的一键运行版

6. LipSync 嘴型匹配

名称	付费否	功能
heygen	官方网页 / 付费	自动翻译 + 嘴型适配
rask.ai	官方网页 / 付费	自动翻译 + 嘴型适配
wav2lip	本地	音 / 视频合成 + 嘴型适配
wav2lip-sync.labs	云端	音 / 视频合成 + 嘴型适配
video-retalking	本地	自动翻译 + 嘴型适配

7. 声音克隆

名称	特点
GPT-SoVITS	国人开发，开源免费，对中文适配效果好，但官方界面较复杂
elevenlabs	官方网页 / 付费，语音翻译克隆

晋ICP备20006783号-1

缺失模块。
1、请确保node版本大于6.2
2、在博客根目录（注意不是yilia根目录）执行以下命令：
npm i hexo-generator-json-content --save

3、在根目录_config.yml里添加配置：

  jsonContent:
    meta: false
    pages: false
    posts:
      title: true
      date: true
      path: true
      text: false
      raw: false
      content: false
      slug: false
      updated: false
      comments: false
      link: false
      permalink: false
      excerpt: false
      categories: false
      tags: true

象牙塔中人，偶做前堂客<br>漫谈经阁半卷书，坐井说天阔<br>有志要功名，海斗量福祸<br>待到山花烂漫时，无谓是非过