Geminiコンポーネントは、VQA機能を含むGeminiを使用することができます。
次のようなことができます。

ユーザーメッセージに応じて回答を得る

・モデルを指定してシステム指示とユーザーメッセージを入力して回答を得ます。

写真や動画ファイルを解析した回答を得る

・写真や動画ファイルとモデルを指定してシステム指示とユーザーメッセージから写真や動画を解析した回答を得ます。

出力ペイロード 説明
cv.Payload Geminiからのレスポンスを出力します。

コンポーネントプロパティ

プロパティー名 説明
モデル 使用するモデルをgemini-2.0-flash、gemini-2.0-flash-liteから選択します
システム指示 Geminiに対するシステム指示を指定します
ユーザーメッセージ Geminiに対するプロンプトまたは質問を入力します
ファイル名 Geminiに解析させるファイルを指定します。複数のファイルはコンマで区切ることで指定できます
ファイルのMIMEタイプ アップロードするファイルのMIMEタイプ *3 複数のファイルのMIMEタイプはコンマで区切ることで指定できます
アップロードファイルを削除 Geminiにファイルをアップロード後にファイルを削除する場合に指定する
会話履歴 以前の会話のターンを表す JSON 配列を提供します *2
レスポンスのMIMEタイプ GeminiからのレスポンスのMIMEタイプ text/plainかapplication/jsonのいずれかを指定死す
最大トークン数 生成された応答で許可されるトークンの最大数を設定します
温度 ジェミニの反応のランダム性と創造性を0.0から2.0の範囲で指定します。値が低いと、より決定論的で焦点を絞った出力が得られます。より高い価値は、より多様で創造的な応答につながります。
TopP 核サンプリングを0.0から1.0の範囲で指定します。生成されたテキストの多様性に影響を与えます。値が低いほど、モデルはより少ない単語の可能性のあるセットから選択できるため、より予測可能なテキストになります。より高い値により、モデルはより広い範囲の単語を考慮することができ、多様性は増加しますが、一貫性は低下する可能性があります。
ストップシーケンス Geminiがテキストの生成を停止する文字列(単語またはフレーズ)のリストをJSON型式で定義します。例:[“a”,“b”,“c”]
セーフティ設定 コンテンツフィルタリングのレベルを設定します。潜在的に有害または機密性の高いコンテンツの生成を防ぐのに役立ちます。安全設定の詳細については、Gemini APIのマニュアルを参照してください。
タイムアウト HTTPリクエストのレスポンスタイムアウト値
APIキー Geminiを使用するためのAPIキーを指定します ※1

※1 GeminiでのAPIキーの取得は こちら を参照してください
※2 以前の会話のターンを表す JSON 配列を提供し、複数のインタラクションにわたってコンテキストを維持します。これにより、複数回の対話が可能になります

Format:

[
  {
    "file_uris": ["https://generativelanguage.googleapis.com/v1beta/files/if4sk0a8zb74"],
    "message": "Describe this file",
    "mime_types": ["image/jpeg"],
    "role": "user",
    "timestamp": "2025-03-07T18:20:58.52802+09:00"
  },
  {
    "message": "Here's a description of the image: ....",
    "role": "assistant",
    "timestamp": "2025-03-07T18:21:01.644585+09:00"
  }
]   

以前にアップロードしたファイルを再アップロードせずに再分析する必要がある場合は、会話履歴内のファイル URI のみを指定できます。ファイルのURIは一定期間のみ有効であることを注意してください。

Reusing File URIs:

[
  {
    "file_uris": [
      "https://generativelanguage.googleapis.com/v1beta/files/h80o3tnx8yax",
      "https://generativelanguage.googleapis.com/v1beta/files/jmcp6fk40w8q"
    ]
  }
]

 

※3 Geminiでは以下のMIMEタイプをサポートしています

・画像関係
PNG – image/png
JPEG – image/jpeg
WEBP – image/webp
HEIC – image/heic
HEIF – image/heif
WAV – audio/wav
MP3 – audio/mp3
AIFF – audio/aiff
AAC – audio/aac
OGG Vorbis – audio/ogg
FLAC – audio/flac

・動画関係
video/mp4
video/mpeg
video/mov
video/avi
video/x-flv
video/mpg
video/webm
video/wmv
video/3gpp

・テキスト関係
PDF – application/pdf
JavaScript – application/x-javascript, text/javascript
Python – application/x-python, text/x-python
TXT – text/plain
HTML – text/html
CSS – text/css
Markdown – text/md
CSV – text/csv
XML – text/xml
RTF – text/rtf
 

コンポーネント変数

コンポーネント変数 説明
cv.ConversationHistory 会話履歴のJSON。会話のコンテキストを維持するために、後続の通話でGeminiコンポーネントへの入力として使用できます
cv.FinishReasons モデルがトークンの生成を停止した理由を示します。モデルの動作をデバッグまたは理解するのに役立ちます
cv.UploadedFileURI 正常にアップロードされたファイルのURIのリスト
cv.UploadedMIMEType アップロードされたファイルに対応するMIMEタイプのリスト

Need more help with this?
Join our slack community for help

お役に立ちましたか?

はい いいえ
お役に立ちましたか
理由をお聞かせください
フィードバックありがとうございました