ヘルプセンター

生成ガイド

テキストから画像まで、3Dオブジェクトまで、すべてのワークスペースをマスター。

生成の仕組み

Gizmojiでの生成はシンプルな流れです:

  1. スタジオ(画像、動画、音声、音楽、3D、またはアバター)を選択します。
  2. 生成をクリック — AIが最適なモデルを自動選択し、ショットのコンテキストに基づいて最適な設定を適用します。クレジットは事前保持され、ジョブはキューに入ります。
  3. アセットが作成される際のリアルタイム進行状況インジケーターを確認し、経過時間を表示します。
  4. 結果をダウンロード、反復、または承認します。

特定のモデルを選択したり、設定を調整したい場合は、「モデル変更 / 高度」をクリックして、フルモデルライブラリとすべてのパラメータにアクセスしてください。

ジョブが何らかの理由で失敗した場合、クレジットは自動的に全額返金されます。

自動モデル選択

プロジェクト内で作業している場合、Gizmojiは参照、ショットタイプ、カメラ移動、ビジュアルスタイルに基づいて各ショットに最適なモデルを自動的に選択します。AIは3つの価格帯から選択します:

  • 予算 — 高速で手頃。ドラフト、反復、アイデアの探索に最適。
  • 価値 — バランスの取れた品質とコスト。ほとんどの制作作業に最適。
  • プレミアム — 最高品質の出力。ヒーローアセット、最終レンダリング、クライアント向け作業に使用。

選択されたモデルを確認でき、いつでも「モデル変更 / 高度」をクリックして別のモデルに切り替えることができます。プロジェクト外のスタンドアロン生成の場合、モデルは自分で選択します。

画像スタジオ

画像スタジオは、2つの主要モードをサポートする最も汎用性の高いワークスペースです:

  • テキストから画像 — テキストプロンプトで希望する内容を説明します。スタイル、構成、照明、ムード、被写体について具体的に記述すると、最適な結果が得られます。
  • 画像から画像 — 参照画像とプロンプトを提供します。AIは参照を出発点として、指示に従って変換します。出力が入力からどれだけ逸脱するかを制御するには、強度パラメータを調整します。

一般的なパラメータには、アスペクト比(縦、横、正方形、カスタム)、品質レベル、シード(再現可能な結果用)、ネガティブプロンプト(望ましくない要素を除外するため)が含まれます。すべてのモデルで利用可能なパラメータではないため、フォームは各モデルの機能に応じて動的に適応します。

動画スタジオ

動画スタジオは、さまざまなクリエイティブニーズに対応する複数の生成モードをサポートしています:

  • テキストから動画 — テキスト説明から直接動画クリップを生成します。クイックコンセプトとモーションスタディに最適。
  • 画像から動画 — 承認された静止画フレームを動画にアニメーション化します。これは、生産品質の出力に推奨されるワークフローです:まず画像スタジオでフレームを生成し、承認した後、動画スタジオに持ち込みます。
  • ビデオ拡張 — 既存のビデオクリップに追加フレームを追加し、動きと物語を続けます。
  • ビデオ変換 — 既存のビデオにスタイル変更を適用し、動きと構成を保持します。
  • ビジュアルエフェクト — ビデオクリップにVFX処理、トランジション、スタイリッシュな効果を追加します。
  • キャラクターアニメーション — テキストまたはオーディオ入力からキャラクターに動き、表情、ジェスチャーを付けます。

重要: 画像からビデオの場合、ソース画像は最初に承認する必要があります。これにより、気に入ったフレームにビデオクレジットを投資していることを確認できます。 詳細ビューまたはレビューパネルから任意の画像を承認できます。

期間オプションはモデルによって異なります。各モデルは特定のクリップ長をサポートします:

  • Veo 3.1 — 4、6、または8秒
  • Kling 2.6 Pro — 5または10秒
  • Hailuo 2.3 — 6または10秒
  • WAN 2.6 — 5、10、または15秒

プロジェクト内で作業している場合、これらの値を使用してショットの期間を事前に計画します。生成時に選択した期間は、一貫したペースを確保するために計画されたショット期間と一致する必要があります。

オーディオスタジオ

AIで音声とサウンドエフェクトを生成します:

  • テキスト読み上げ — 書かれたテキストを自然な音声に変換します。異なるアクセント、性別、トーンの質を持つ複数のボイスから選択できます。必要な配信に合わせて速度と強調を調整します。
  • サウンドエフェクト — 環境音、フォーリー効果、またはオーディオテクスチャを説明し、AIが生成します。ビデオプロジェクトに雰囲気を追加するのに役立ちます。

出力形式にはMP3とWAVが含まれます。オーディオアセットは、視覚アセットと並んでプロジェクトのタイムラインに直接統合されます。

ミュージックスタジオ

オリジナルの音楽トラックとスコアを作成します:

  • テキストから音楽 — 希望するムード、ジャンル、テンポ、楽器を説明します。AIがオリジナルのインストゥルメンタルトラックを生成します。
  • オーディオから音楽 — 参考オーディオクリップを提供し、AIがそのスタイル、テンポ、またはムードに合った音楽を生成します。

ミュージックアセットは、ビデオプロジェクトのスコア作成、ポッドキャストのバックグラウンドトラック作成、コンテンツ用のロイヤリティフリー音楽生成に最適です。

3Dスタジオ

テキストの説明または参考画像から3Dオブジェクトを作成します:

  • テキストから3D — オブジェクトを説明し、AIがテクスチャ付きの3Dモデルを生成します。
  • 画像から3D — 参考画像を提供し、AIが3D構造を推論し、それに合ったモデルを生成します。

出力形式にはGLBとOBJが含まれ、ゲームエンジン(Unity、Unreal)、3Dエディタ(Blender)、AR/VRアプリケーション、およびWebビューアへのインポートに適しています。

アバタースタジオ

キャラクターアニメーションとトーキングヘッドビデオを作成します:

  • リップシンク — ポートレート画像とオーディオトラックを提供します。AIは音声に合わせて顔のアニメーションを生成し、リアルなトーキングヘッドビデオを作成します。
  • 顔アニメーション — 参考動画またはオーディオ入力からポートレート画像に顔の表情と頭の動きをアニメーション化します。
  • 顔の入れ替え — ビデオや画像にある顔の表情や動きを保ったまま、別の顔に置き換えます。
  • 肖像の転写 — 肖像のスタイルや特徴を異なるコンテキストやポーズに適用します。

アバターモデルは、明確で正面を向いた参照画像と高品質な音声入力で最も効果を発揮します。

パイプラインの進捗

プロジェクト内で生成する際、各ショットの生産パイプラインを示す進捗バーが表示されます:画像 → ビデオ → 音声。完了したステージにはチェックマークが付き、任意のステージをクリックしてそのワークスペースに切り替えることができます。各アクティブな生成には経過時間が表示され、常にどれだけ長く実行されているかを把握できます。

自動プロンプト最適化

Pixel Agent(ガイドモードまたは自動モード)を使用する場合、最初の生成試行前にショットプロンプトが自動的に強化されます。最適化プログラムは、画像モデルが最も反応する技術的な写真用語、照明の詳細、構成のガイダンスを追加します。

これはバックグラウンドで行われるため、完璧なプロンプトを自分で書く必要はありません。元のプロンプトは保持され、最適化されたバージョンは生成時にのみ使用されます。最適化に失敗した場合、元のプロンプトがそのまま使用され、生産がブロックされることはありません。

品質評価

Pixel Agentを使用して画像を生成した後、AIビジョンモデルが生成結果を元のプロンプトと比較して評価します。4つの次元をスコアリングします:

  • プロンプトへの適合 — 画像は記述された内容と一致していますか?
  • 構成 — フレーミング、バランス、視覚的な流れは強いですか?
  • 技術的品質 — シャープネス、照明、色の正確性。
  • ムード — 感情的なトーンはシーンのコンテキストに合っていますか?

合計スコア(1-10)は品質閾値と比較されます。合格した画像は承認されます。不合格の画像は、特定の問題に対処するために精緻化されたプロンプトで再試行されます。各ショットは最大2回の品質再試行の後、自動承認され、生産を継続します。

プロンプトのヒント

出力の品質はプロンプトに大きく依存します。以下はすべてのスタジオに適用されるヒントです:

  • 具体的である — 「猫」ではなく、「窓辺に座るタビー猫、午後の日差し、ソフトボケ背景、写真レベル」と試してみてください。
  • スタイルとムードを説明する — アートスタイル(シネマティック、アニメ、水彩画)、照明(ゴールデンアワー、スタジオ照明、ネオン)、ムード(穏やか、ドラマチック、遊び心)を含めてください。
  • ネガティブプロンプトを使用する — サポートされている場合、ネガティブプロンプトは望ましくない要素を除外します(例:「ぼやけた、低品質、テキスト、ウォーターマーク」)。
  • 予算モデルで反復する — 低コストで高速なモデルを使用してプロンプトを精緻化します。構成とスタイルに満足したら、最終レンダリングにはプレミアムモデルに切り替えてください。
  • プロンプト最適化プログラムを使用する — ビルトインのAIプロンプト最適化プログラムは、より詳細でモデルフレンドリーなプロンプトに書き直します。出力品質を向上させる技術的なパラメータを追加します。
  • 一貫性のためにシードを使用する — 気に入った結果を見つけたら、そのシード値をメモしてください。同じプロンプトで同じシードを使用すると、類似の出力が得られ、全体的な構成を保ったまま小さなプロンプトの調整ができます。

並列生成

複数の生成ジョブを一度に送信できます。各プランレベルには並列制限が含まれており、同時に実行できるジョブの数を示します:

  • 無料 — 4つの並列タスク
  • スターター — 6つの並列タスク
  • クリエイター&プロ — 8つの並列タスク
  • スタジオ — 12つの並列タスク

異なるスタジオからのジョブは同時に実行できます — 画像を生成しながらビデオをレンダリングしたり、3Dモデルが作成されている間に音声を生成したりできます。

ストーリーボード上の「すべて生成」ボタンは、利用可能な並列スロットの数を表示し、どれだけのショットがすぐに開始されるかを知ることができます。制限に達すると、残りのショットはスロットが空くのを待って開始されます。並列制限を増やすには、プランをアップグレードしてください。

よくある質問

自動モデル選択はどのように動作しますか?

プロジェクト内で作業しているとき、AIはショット — リンクされた参照、ショットの種類、カメラの動き — を分析し、最適なモデルを自動的に選択します。いつでも「モデルを変更 / 高度な設定」をクリックして、異なるモデルに切り替えることができます。

複数のアセットを一度に生成できますか?

はい。プランの並列制限内で、複数のジョブを並列に送信できます。各ジョブは独立して実行されるため、スタジオ間で同時に作業できます。

なぜビデオには承認されたフレームが必要ですか?

最初にフレームを承認することで、ビデオ生成の方向性を確認し、より高価なビデオ生成にクレジットを費やす前に視覚的な方向性を確認できます。これにより、フレームを拒否する可能性のあるビデオにクレジットを無駄にすることを防ぎます。

プロンプトを書く必要がありますか?

いいえ。プロジェクト内で作業しているとき、プロンプトはショットの説明、シーンのコンテキスト、リンクされた参照から自動的に生成されます。スタンドアロン生成の場合、説明を書き、組み込みの最適化機能がより良い結果のためにそれを強化します。

高度な設定にアクセスできますか?

はい。「モデルを変更 / 高度な設定」をクリックして、完全なモデルライブラリにアクセスし、アスペクト比や期間などのパラメータを調整し、すべての詳細を微調整できます。高度なモードでは完全な制御が可能です。

ストーリーボードからショットを直接生成できますか?

はい。ストーリーボード上の空のショットカードをクリックして、フレーム生成、レビュー、ビデオ生成をガイドするモーダルを開きます — ストーリーボードを離れることなく。"すべて生成"を使用して、一度に複数のショットをバッチ生成します。

Pixel Agentはプロンプトを最適化しますか?

はい。各ショットの最初の試行では、エージェントがプロンプトに技術的な写真用語、照明の詳細、構成のガイダンスを追加します。これは自動的に行われます — 元のプロンプトは保持され、強化されたバージョンが生成に使用されます。

画像が品質ゲートで拒否された場合、どうなりますか?

AI評価者は、より良い照明方向や改善された構成など、特定の問題を解決するための精緻化されたプロンプトを提供します。エージェントはこの精緻化されたプロンプトで再試行します。2回の品質再試行後、画像は自動的に承認され、生産が継続されます。

生成する準備はできましたか?

すべてのスタジオを無料で試す — 画像、ビデオ、オーディオ、3D、アバター。

無料で始める