さくらインターネットは2025年9月24日、生成AI向け推論API基盤「さくらのAI Engine」を提供開始した。大規模言語モデル(LLM)など各種基盤モデルをREST APIを介して利用可能である。チャット補完モデル(4種類)、音声文字起こしモデル、ベクトル化モデルの6種類の基盤モデルを提供する。RAG(検索拡張生成)のためのAPIとベクトルデータベースも提供する。
さくらインターネットの「さくらのAI Engine」は、生成AI向けの推論APIサービスである。REST APIを介して、大規模言語モデル(LLM)などの基盤モデルやRAG(検索拡張生成)機能を提供する。ユーザーは、目的や性能・要件に合わせた基盤モデルを選択し、生成AIを活用したアプリケーションを迅速に構築できるとしている(図1)。

拡大画像表示
表1は基盤モデルの種類と料金(税込み)である。基盤モデルは、チャット補完モデル(4種類)、音声文字起こしモデル、埋め込み(ベクトル化)モデルの6種類。RAG(検索拡張生成)アプリケーションを構築するためのAPIとベクトルデータベースも提供する。
これらをユーザーが利用するための「基盤モデル無償プラン」と「従量課金プラン」の2つを用意している。両プラン共通の無償利用枠を超えた場合、前者ではAPIリクエストに対してレート制御がかかり、後者では超過利用分への料金が発生する。

拡大画像表示
RAGについては、以下のAPIを提供する。
- documents_query:ベクトルデータベースを自然言語で検索する。ベクトルデータベースに保存してあるドキュメントまたはその一部であるチャンクをそのまま出力する。
- documents_chat:ベクトルデータベースを自然言語で検索する。検索結果を利用して回答を生成する。回答は、指定したLLMモデルを用いて自然な言語で生成する。
documents_chatの場合、(1)投入された質問をベクトル化、(2)ベクトルデータベースを検索、(3)検索結果を指定した基盤モデルで自然言語に変換、の3ステップを1回のAPIコールで実行する。
なお、RAGのAPIを利用する際には、埋め込み(ベクトル化)モデルとチャット補完モデルの利用料金が発生する。また、アップロードした文書をベクトル化してベクトルデータベースに格納する機能も提供する。