Difyを使う中で、試行錯誤した内容をまとめていきます。
RAGの精度を上げるためにチャンク数を増やしたい
ExcelやCSVのデータをナレッジとして取り込む際、1行ごとにチャンク化したい場合もあるでしょう。
しかし、1行のデータ長が長い場合、1つのチャンクに収まりきらず複数にまたがってしまうことがあるでしょう。
その場合、チャンク長をデフォルトの1000よりも大きな値に設定したい場合があるでしょう。
その時は下記のように設定することで、チャンク長を長くできます。
docker/.envで書きを設定する。
# Maximum length of segmentation tokens for indexing
INDEXING_MAX_SEGMENTATION_TOKENS_LENGTH=3000
Excelの1行単位でチャンク化したい
Excelの1行単位でチャンク化したい場合、セグメント識別子を「\\n」とすることでできました。