
妙笔是阿里巴巴最新开源的中文文生图模型,它与经典的Stable Diffusion 1.5版本结构相同,兼容现有的lora、controlnet等主流插件及其权重。妙笔的特点是用户可以直接输入中文进行文生图操作,生成的图像效果逼真。例如,输入“枯藤老树昏鸦,小桥流水人家。水墨画。”,妙笔能够理解诗句中的意境并生成相应的图像。
妙笔的训练数据包括Laion-5B中的中文子集、Midjourney相关的开源数据以及数十万的caption数据。但由于数据集在成语和古诗词方面存在偏差,对中国名胜地标建筑数据的缺少,以及大量的英译中数据,可能会导致一些理解上的混淆。目前,妙笔Beta0.9版本已经在8张4090显卡上完成训练,开发者也在计划扩展机器资源以训练更高级的模型,以期获得更优的结果。
妙笔的使用也非常简单,用户只需克隆项目并安装所需的包,下载模型权重后即可开始生成图像。此外,妙笔还提供了多种示例和教程,帮助用户快速上手和掌握使用方法。
妙笔直接输入中文就可以完成文生图操作,使用起来非常便捷,生图的效果也十分逼真。
比如输入“枯藤老树昏鸦,小桥流水人家。水墨画。”来看秒笔生成结果。可以看出妙笔很好的表达出来诗句中的意思并生成了诗中的内容。
再比如输入“极具真实感的复杂农村的老人肖像,黑白。”
可以看出生成的人像具有很好的完整性和真实感,以往生图模型在生成人像方面的缺点在这也都完成的很好。
项目地址
https://github.com/ShineChen1024/MiaoBi
安装运行
1.克隆项目
git clone https://github.com/ShineChen1024/MiaoBi.git
2.创建虚拟环境并安装所需要的包
conda create -n MiaoBi-SD python==3.10
conda activate MiaoBi-SD
pip install torch==2.0.1 torchvision==0.15.2 numpy==1.25.1 diffusers==0.25.1 opencv
3.下载模型
从Huggingface下载权重,并把它放在检查点文件夹。
MiaoBi checkpoints下载链接
Diffuser使用
from diffusers import StableDiffusionPipeline
from transformers import AutoTokenizertokenizer = AutoTokenizer.from_pretrained(“checkpoints/miaobi_beta0.9/tokenizer”, trust_remote_code=True)
pipe = StableDiffusionPipeline.from_pretrained(“checkpoints/miaobi_beta0.9”)pipe.to(“cuda”)
prompt = “一只穿着铠甲的猫”
image = pipe(prompt).images[0]
image.save(“铠甲猫.png”)
模型推理
python demo
python miaobi_generate.py
###controlnet demo
python miaobi_controlnet.py
中文生图示例
一只精致的陶瓷猫咪雕像,全身绘有精美的传统花纹,眼睛仿佛会发光。
动漫风格的风景画,有山脉、湖泊,也有繁华的小镇子,色彩鲜艳,光影效果明显。
车水马龙的上海街道,春节,舞龙舞狮。
局限性
妙笔的训练数据包含Laion-5B中的中文子集(经过清洗过滤),Midjourney相关的开源数据(将英文提示词翻译成中文),以及收集的一批数十万的caption数据。
由于整个数据集大量缺少成语与古诗词数据,所以对成语与古诗词的理解可能存在偏差,对中国的名胜地标建筑数据的缺少以及大量的英译中数据,可能会导致出现一些对象的混乱。
妙笔Beta0.9在8张4090显卡上完成训练,目前也在拓展机器资源来训练SDXL来获得更优的结果,期待后续的更新。
数据统计
相关导航

RAGFlow是一款开源的检索增强生成(RAG)引擎,专为深入理解文档而设计。它为各类企业和个人提供简洁高效的RAG工作流程,与大语言模型(LLM)相结合,针对各种复杂格式的数据提供可靠的问答及有依据的引用。RAGFlow非常适合需要动态内容生成且依赖外部知识库的场景,如智能客服、文档生成和数据分析等,助力用户高效挖掘大量数据中的有价值信息。

Face Adapter
Face Adapter 是一种专门为预训练的扩散模型设计的适配器,主要用于面部重演和面部交换任务。它能够实现高精度和高保真度的面部编辑,提供精细的个体识别和属性控制功能。

Aiuni AI
Aiuni AI 是一款基于 Unique3D 开源技术的在线 AI 图片转 3D 模型生成建模工具,它能够在 30 秒内将单张图片转换为高质量的 3D 模型。用户通过简单的图片上传和点击生成,用户即可获得 360 度无死角的 3D 模型,确保每个角度都具有一致性和高质量的细节。

Hibiki
Hibiki是一个Kyutai Labs开发的一个用于流式语音翻译(也称为同步翻译)的模型。与离线翻译不同,离线翻译需要等待源语句结束后才开始翻译,而 Hibiki 能够实时积累足够的上下文,以逐块生成正确的翻译。用户在讲话时,Hibiki 会在目标语言中生成自然的语音,并提供文本翻译。

RMBG-2.0
RMBG-2.0是由BRIA AI 开发的开源图像背景移除模型,通过先进的卷积神经网络(CNN)实现高精度的前景与背景分离。该模型在经过精心挑选的数据集(包括一般图像、电子商务、游戏和广告内容)上进行了训练,专为大规模企业内容创建的商业用例设计,其准确性、效率和多功能性可以媲美领先的 Source Available 型号。

HoloDreamer
HoloDreamer是一款文本驱动的3D场景生成框架,通过用户的文本描述生成沉浸式且视角一致的完整3D场景。它由风格化全景生成和增强型全景重建两个核心模块组成,该框架首先生成高清晰度的全景图作为完整3D场景的整体初始化,然后利用3D高斯散射(3D-GS)技术快速重建3D场景,从而实现视角一致和完全封闭的3D场景生成。HoloDreamer在虚拟现实、游戏和影视行业中有广泛应用,为这些领域提供了新的解决方案。

ReSyncer
ReSyncer 是由清华大学、百度和南洋理工大学 S-Lab 实验室联合开发的多功能 AI 框架,专注于视频合成技术。它能够生成与音频高度同步的逼真口型视频,支持个性化调整、视频驱动口型同步、说话风格迁移和人脸交换。ReSyncer 在创建虚拟主持人、电影配音和多语言内容制作等领域具有广泛应用前景。

商量拟人大模型
商量拟人大模型是商汤科技推出的一款AI拟人大模型,它支持个性化角色创建与定制、知识库构建、长对话记忆、多人群聊等功能,可实现行业领先的角色对话、人设及剧情推动能力。该模型广泛应用于情感陪伴、影视/动漫/网文IP角色、明星/网红/艺人AI分身、语言角色扮演游戏等拟人对话场景。
暂无评论...