バーチャルスタッフでは RAG(検索拡張生成)として、アップロードされたナレッジファイルの中身を学習(自動解析)した上で、ナレッジを引用した生成を可能とする仕組みを導入しています。
ナレッジの学習仕様と、学習エラーが発生した際の原因についてご案内します。

学習対象となるファイル形式
以下の主要なドキュメント・ファイル形式をサポートしています。
- PDF(.pdf)
- Word(.docx)
- Excel(.xlsx)
- PowerPoint(.pptx)
※ OCR が可能であるため、ドキュメント内画像の文字情報も学習対象となります。
対象外となるファイル形式
以下のファイル形式は学習対象外となるため、アップロードすることができません。
- 従来型のMicrosoft Officeファイル形式(.doc, .xls, .ppt)
- テキストファイル(.txt, .csv など)
- その他 学習対象に記載されていないファイル形式すべて
※ 必要に応じて、従来型のOfficeファイルは正規の手順で変換いただき、テキストやCSVなどはPDFやExcelに変換いただいた後にアップロードが可能となります。
アップロードにおける制限事項
- 1ファイルあたりのサイズ上限:20MB
- アップロード1回あたりの総ファイルサイズ制限: 100MB
学習が完了するまでの待機時間の目安
アップロードされたファイル数やサイズに応じて、学習に要する待機時間が生じます。学習ステータスが「学習中」から「学習済」になるまで、しばらくお待ちください。
- 一般的なドキュメント数ファイルであれば、10分前後で学習が完了します。
- サイズが重いファイルや文字数が多いファイルなどを含む数十ファイルであれば、30分以上お時間いただく可能性があります。
学習ステータスが「エラー」となるファイルの特徴
ナレッジにアップロードされたファイルの状態によって、自動で読み取ることができないケースがあり、その場合は学習エラーが発生します。
以下に、エラーが発生しやすいファイルの特徴についてご案内します。
- パスワード保護ファイル: Office関連ファイルやPDFなどパスワードによって保護されたファイル
- 拡張子変更ファイル: ファイル生成時より手動で別の拡張子にリネームされたファイル
- 破損ファイル: ファイルが完全でない、またはデータの一部が失われている破損したファイル
- 校閲履歴が残存する Word文書: 校閲履歴が残るWord文書ファイル
- 1シートに数万行が保存された Excel表: 1シート内に数万行以上が存在するExcel表ファイル
- IRMで保護されたOffice関連ファイル: Information Rights Management (IRM)で制限・保護されたファイル