跳到主要内容

使用大模型函数实现多模态AIGC

多模态 AIGC(人工智能生成内容)是指利用人工智能技术,根据文本提示词自动生成图像、视频等多种形式内容的能力。JitAI 平台深度集成了多模态生成能力,让开发者能够在应用中轻松实现文生图和文生视频等创新功能。

提示

当前版本中,仅支持阿里云百炼平台的万相系列模型(Wanx)。使用前请确保已在系统中配置好百炼的 API 密钥。更多大模型厂商的支持正在开发中。

百炼

文生图功能

示例

想象一下,只需输入一段故事文本,系统就能自动为您生成配套的精美绘本插图——这正是 JitAI 平台文生图能力的实际应用。

以儿童绘本创作为例,我们实现了一个智能化的文本转图像工作流:系统通过 5 个 AI 处理阶段(故事拆分 → 角色设计 → 场景设计 → 插画风格 → 提示词优化),将一段普通故事文本逐步转化为专业的文生图提示词,最终批量生成风格统一、叙事连贯的插图。整个过程无需人工干预,几分钟内就能完成原本需要设计师数小时甚至数天的工作。

这个例子展示了 JitAI 平台的核心优势:通过串联多个大模型调用,构建复杂的 AI 工作流。您可以像搭积木一样,组合文本生成、逻辑判断、图像生成等能力,打造属于自己的 AIGC 应用。

Loading...

在页面中调用文生图

在页面中可以快速集成文生图功能。

Loading...

打开页面中的事件面板,新建基础语句,选择AI大模型-百炼大模型实例-文生图,会生成对应的函数调用代码。点击代码中的文生图按钮,会弹出文生图配置面板。

Loading...

在配置面板中,选择合适的模型,并配置好提示词、模型参数,点击确定即可完成配置。参数详细说明请参考文生图参数

在后端函数中调用文生图

在后端函数(服务、模型函数、任务、事件)中,均可调用文生图功能。

Loading...

在后端函数面板中,新建基础语句,选择AI大模型-百炼大模型实例-文生图,会生成对应的函数调用代码。点击代码中的文生图按钮,会弹出文生图配置面板。

Loading...

在配置面板中,选择合适的模型,并配置好提示词、模型参数,点击确定即可完成配置。参数详细说明请参考文生图参数

文生视频功能

示例

文生视频不仅仅是简单的"文字变视频",更是将静态文本转化为动态影像叙事的创作过程。

以古诗词可视化为例,我们构建了一个专业的文本转视频工作流:系统通过 5 个专业化的 AI 处理阶段(段落拆分 → 剧情编写 → 运镜设计 → 特效后期 → 提示词优化),将古诗词或文言文逐步转化为专业的电影级视频提示词。每个阶段都模拟真实影视制作流程——从故事板设计、镜头语言规划,到光影色彩调校,最终批量生成风格统一、镜头流畅的短视频片段。

相比传统视频制作需要编剧、导演、摄像、后期等多个环节协作,这套工作流将专业知识编码为 AI Prompt,让普通用户也能创作出具有专业水准的视频内容。这正是 JitAI 平台的独特价值:将复杂的专业知识沉淀为可复用的 AI 工作流,让创作更加民主化

Loading...

在页面中调用文生视频

用法与文生图一致,请参考在页面中调用文生图。配置参数请参考文生视频参数

在后端函数中调用文生视频

用法与文生图一致,请参考在后端函数中调用文生图。配置参数请参考文生视频参数

图生图功能

图生图功能支持基于参考图片进行图像编辑和创作,包括单图编辑多参考图生图两种模式。通过输入图片和文本提示词,可以实现图像风格转换、元素替换、多图融合等创意功能。

在页面中调用图生图

用法与文生图一致,请参考在页面中调用文生图。配置参数请参考图生图参数

在后端函数中调用图生图

用法与文生图一致,请参考在后端函数中调用文生图。配置参数请参考图生图参数

图生视频功能

图生视频功能支持基于首帧图片生成动态视频内容。通过上传一张图片作为视频的起始画面,配合文本提示词或特效模板,系统将自动生成流畅的视频动画。该功能特别适合为静态图片添加动态效果,制作产品展示、人物动画等内容。

在页面中调用图生视频

用法与文生图一致,请参考在页面中调用文生图。配置参数请参考图生视频参数

在后端函数中调用图生视频

用法与文生图一致,请参考在后端函数中调用文生图。配置参数请参考图生视频参数

首尾帧生视频功能

首尾帧生视频功能支持通过指定视频的首帧和尾帧关键帧图片,自动生成中间过渡动画的视频内容。该功能可以精确控制视频的起始和结束画面,适合制作转场动画、状态变化展示等需要明确起止状态的视频内容。

在页面中调用首尾帧生视频

用法与文生图一致,请参考在页面中调用文生图。配置参数请参考首尾帧生视频参数

在后端函数中调用首尾帧生视频

用法与文生图一致,请参考在后端函数中调用文生图。配置参数请参考首尾帧生视频参数

参数说明

文生图参数

模型选择

系统支持万相系列的 6 个文生图模型,根据不同场景选择合适的模型:

模型名称特点适用场景
wan2.5-t2i-preview支持自由尺寸(768×768 至 1440×1440)
宽高比 1:4 至 4:1
需要特殊尺寸(如长图、宽图)的创意设计
wan2.2-t2i-flash速度提升 50%,极速生成快速迭代、批量生成场景
wan2.2-t2i-plus稳定性与成功率全面提升商业项目、对质量要求高的场景
wanx2.1-t2i-turbo生成速度快快速原型设计、预览效果
wanx2.1-t2i-plus高质量图像生成专业设计、精细化创作
wanx2.0-t2i-turbo经典版本,稳定可靠一般性图像生成需求
配置参数

在配置面板中可设置以下参数:

  • 正向提示词(prompt) *:描述期望生成的图像内容,支持变量插入
  • 反向提示词(negative_prompt):指定要避免出现的元素
  • 图像尺寸(size) *:生成图像的尺寸,如 1024×1024、1280×720 等
  • 生成数量(n):一次生成的图片张数,取值 1-4
  • 随机种子(seed):固定种子可获得可重现的结果
  • 水印设置(watermark):是否在生成的图片上添加水印
  • 提示词智能改写(prompt_extend):使用大模型优化提示词,对短提示词效果提升明显
提示

不同模型支持的参数略有差异,配置面板会根据选择的模型自动展示可用参数。详细参数说明请参考通义万相文生图官方文档

文生视频参数

模型选择

系统支持万相系列的 4 个文生视频模型,根据不同需求选择合适的模型:

模型名称音频支持分辨率时长特点适用场景
wan2.5-t2v-preview✅ 有声视频480P/720P/1080P5秒/10秒支持自动配音和自定义音频需要音画同步的宣传视频、教育内容
wan2.2-t2v-plus❌ 无声视频480P/1080P5秒稳定性提升 50%,速度更快商业项目、批量生成
wanx2.1-t2v-turbo❌ 无声视频480P/720P5秒生成速度快快速迭代、原型设计
wanx2.1-t2v-plus❌ 无声视频720P5秒高质量视频生成精细化创作、专业设计
有声视频

wan2.5-t2v-preview 模型支持音频功能(自动配音或自定义音频)。其他模型生成无声视频。

配置参数

在配置面板中可设置以下参数:

  • 正向提示词(prompt) *:描述期望生成的视频内容,应包含场景、动作、镜头等元素
  • 反向提示词(negative_prompt):指定要避免出现的元素或效果
  • 视频分辨率(size):如 1280×720 (720P)、1920×1080 (1080P) 等
  • 视频时长(duration):5秒 或 10秒(wan2.5 支持10秒,其他模型仅5秒)
  • 自定义音频(audio_url):上传自定义音频文件(5-12秒),仅 wan2.5 支持
  • 自动配音(audio):模型自动生成匹配的背景音频,仅 wan2.5 支持
  • 水印设置(watermark):是否在生成的视频上添加水印
  • 提示词智能改写(prompt_optimizer):使用大模型优化提示词,提升生成效果
重要提示
  • 文生视频采用异步调用,通常需要 1-5 分钟
  • 返回的 video_url 仅保留 24 小时,建议及时下载并转存到永久存储
  • 按视频秒数计费,仅任务成功时才会计费
提示

不同模型支持的参数略有差异,配置面板会根据选择的模型自动展示可用参数。详细参数说明请参考通义万相文生视频官方文档

图生图参数

模型选择

系统支持万相系列的图生图模型:

模型名称特点适用场景
wan2.5-i2i-preview支持单图编辑和多参考图生图
保持输入图像宽高比例
图像风格转换、元素替换、多图融合创作
配置参数

在配置面板中可设置以下参数:

  • 输入图片(images) *
    • 单图编辑:输入单个图片URL或选择变量
    • 多参考图生图:输入JitList变量或多个图片URL
  • 正向提示词(prompt) *:描述期望的图像编辑效果或生成内容,支持变量插入
  • 反向提示词(negative_prompt):指定要避免出现的元素
  • 生成数量(n):一次生成的图片张数,取值 1-4
  • 随机种子(seed):固定种子可获得可重现的结果,范围 0-4294967290
  • 水印设置(watermark):是否在生成的图片上添加水印
重要提示
  • 图生图采用异步调用,通常需要 1-2 分钟
  • 返回的图片 URL 仅保留 24 小时,建议及时下载并转存到永久存储
  • 按成功生成的图像张数计费
提示

详细参数说明请参考通义万相图生图官方文档

图生视频参数

模型选择

系统支持万相系列的多个图生视频模型,根据不同需求选择合适的模型:

模型名称音频支持分辨率时长特点适用场景
wan2.5-i2v-preview✅ 有声视频480P/720P/1080P5秒/10秒支持音频、特效模板静态图片动画化、产品展示
wan2.2-i2v-plus❌ 无声视频480P/1080P5秒稳定性提升,速度更快商业项目、批量生成
wan2.2-i2v-flash❌ 无声视频480P/720P/1080P5秒极速生成快速预览、原型设计
wanx2.1-i2v-turbo❌ 无声视频480P/720P5秒生成速度快快速迭代
wanx2.1-i2v-plus❌ 无声视频720P5秒高质量视频生成精细化创作
有声视频

wan2.5-i2v-preview 模型支持音频功能(自动配音或自定义音频)。其他模型生成无声视频。

配置参数

在配置面板中可设置以下参数:

  • 首帧图片URL(img_url) *:视频的起始画面图片,支持URL或变量
  • 特效模板(template):选择预设的动画特效,可选值包括:
    • 通用特效:魔法悬浮(flying)、解压捏捏(squish)、转圈圈(rotation)、戳戳乐(poke)、气球膨胀(balloon)、赠人玫瑰(rose)、闪亮玫瑰(crystalrose)
    • 单人特效:搞怪热舞(dance1)、午夜蹦迪(dance2)、星摇时刻(dance3)、指感节奏(dance4)、舞动开关(dance5)、人鱼觉醒(mermaid)、学术加冕(graduation)、巨兽追袭(dragon)、财从天降(money)、水母之约(jellyfish)、瞳孔穿越(pupil)
    • 双人特效:爱的抱抱(hug)、唇齿相依(frenchkiss)、双倍心动(coupleheart)
  • 正向提示词(prompt):描述期望的视频动画效果(使用特效模板时可选)
  • 反向提示词(negative_prompt):指定要避免出现的元素或效果
  • 视频分辨率(resolution):如 480P、720P、1080P
  • 视频时长(duration):5秒 或 10秒(wan2.5 支持10秒,其他模型仅5秒)
  • 自定义音频(audio_url):上传自定义音频文件(5-12秒),仅 wan2.5 支持
  • 自动配音(audio):模型自动生成匹配的背景音频,仅 wan2.5 支持
  • 水印设置(watermark):是否在生成的视频上添加水印
  • 提示词智能改写(prompt_optimizer):使用大模型优化提示词,提升生成效果
重要提示
  • 图生视频采用异步调用,通常需要 1-5 分钟
  • 返回的 video_url 仅保留 24 小时,建议及时下载并转存到永久存储
  • 按视频秒数计费,仅任务成功时才会计费
提示

不同模型支持的参数略有差异,配置面板会根据选择的模型自动展示可用参数。详细参数说明请参考通义万相图生视频官方文档

首尾帧生视频参数

模型选择

系统支持万相系列的首尾帧生视频模型:

模型名称分辨率时长特点适用场景
wan2.2-kf2v-flash480P/720P/1080P5秒极速生成,支持特效模板转场动画、状态变化展示
wanx2.1-kf2v-plus720P5秒高质量视频生成精细化创作、专业设计
配置参数

在配置面板中可设置以下参数:

  • 首帧图片URL(first_frame_image_url) *:视频的起始画面图片,支持URL或变量
  • 尾帧图片URL(last_frame_image_url):视频的结束画面图片,支持URL或变量(可选)
  • 特效模板(template):选择预设的动画特效,可选值包括:
    • 唐韵翩然(hanfu-1)
    • 机甲变身(solaron)
    • 闪耀封面(magazine)
    • 机械觉醒(mech1)
    • 赛博登场(mech2)
  • 正向提示词(prompt):描述期望的视频过渡效果(使用特效模板时可选)
  • 反向提示词(negative_prompt):指定要避免出现的元素或效果
  • 视频分辨率(resolution):如 480P、720P、1080P(wan2.2-kf2v-flash 支持)或 720P(wanx2.1-kf2v-plus)
  • 视频时长(duration):固定为 5秒
  • 水印设置(watermark):是否在生成的视频上添加水印
  • 提示词智能改写(prompt_optimizer):使用大模型优化提示词,提升生成效果
重要提示
  • 首尾帧生视频采用异步调用,通常需要 1-5 分钟
  • 返回的 video_url 仅保留 24 小时,建议及时下载并转存到永久存储
  • 按视频秒数计费,仅任务成功时才会计费
  • 如果不提供尾帧图片,系统将仅基于首帧生成视频
提示

openAI

敬请期待……