データファイルリファレンス¶
データファイルとは¶
データファイルは、検索に使用するデータです。
- 候補語登録ファイル
- 候補語除外ファイル
- デフォルト表示キーワード登録ファイル
候補語登録ファイル¶
独自の候補語や読み仮名を登録するのに使用します。
また、候補語を上位に表示するのにも使用します。
次の形式、書式でファイルに格納してください。
- RFC4180 に準拠した形式の CSV
- 文字コードには UTF-8 を用いる。BOM (バイトオーダーマーク) は使用しない
- 1 行目に各列の定義を示すフィールド名を持つヘッダ行を記述する
- フィールドのデータにタブや改行を含む制御文字は使用しない
- 行の区切りは LF (line feed) で区切る
候補語登録ファイルのカラム構成は次のとおりです。
| フィールド名 | 項目 | 必須 |
|---|---|---|
| keyword | 候補語 (表示される文字列) | ○ |
| yomi | 読み (ひらがな) | |
| weight | 優先度 (1 から 100 の数値。大きいほうが優先的に表示される) | |
| remarks | コメント (登録内容は動作に影響しない) |
優先度の指定を省略した場合には、20 が適用されます。
また、読みを省略した場合には、読みが自動的に付与されます。
複数の読みを持つ候補語を登録するには、同じ候補語を、読みを変えて複数登録します。
下記の例では、「ビール」という候補語に「びいる」、「びあ」、「beer」の 3 つの読みを割り当てています。
keyword,yomi,weight
ビール,びいる,20
ビール,びあ,20
ビール,beer,20
候補語除外ファイル¶
不要な候補語を削除するのに使用します。
次の形式、書式でファイルに格納してください。
- RFC4180 に準拠した形式の CSV
- 文字コードには UTF-8 を用いる。BOM (バイトオーダーマーク) は使用しない
- 1 行目に各列の定義を示すフィールド名を持つヘッダ行を記述する
- フィールドのデータにタブや改行を含む制御文字は使用しない
- 行の区切りは LF (line feed) で区切る
| フィールド名 | 項目 | 必須 |
|---|---|---|
| keyword | 除外する単語 | ○ |
| remarks | コメント (登録内容は動作に影響しない) |
デフォルト表示キーワード登録ファイル¶
検索ボックスに文字を入力する前に、キーワードを表示するのに使用します。
次の形式、書式でファイルに格納してください。
- RFC4180 に準拠した形式の CSV
- 文字コードには UTF-8 を用いる。BOM (バイトオーダーマーク) は使用しない
- 1 行目に各列の定義を示すフィールド名を持つヘッダ行を記述する
- フィールドのデータにタブや改行を含む制御文字は使用しない
- 行の区切りは LF (line feed) で区切る
| フィールド名 | 項目 | 必須 |
|---|---|---|
| keyword | 表示するキーワード | ○ |
| rank | 表示する順位 | ○ |
カスタムサジェストデータファイル¶
カスタムサジェストを表示するのに使用します。
前提
カスタムサジェストオプション の契約が必要です。
次の形式、書式でファイルに格納してください。
- RFC4180 に準拠した形式の CSV
- 文字コードには UTF-8 を用いる。BOM (バイトオーダーマーク) は使用しない
- 1 行目に各列の定義を示すフィールド名を持つヘッダ行を記述する
- フィールドのデータにタブや改行を含む制御文字は使用しない
- 行の区切りは LF (line feed) で区切る
| フィールド名 | 項目 | 必須 |
|---|---|---|
| name | 表示する名称 | ○ |
| icon_url | アイコンの URL | |
| link | 遷移先 URL | ○ |
| weight | レコードの重み。整数値で指定。大きいものが優先的にヒットする | |
| keywords | ヒットさせるキーワード。複数指定する場合はカンマ区切りで指定する | ○ |
文字に関する制限¶
設定データファイルに含めることができる文字には制限があります。
以下は不正な文字として扱います。
インデクシングで不正な文字があった場合、エラーとなり、データベースは更新されません。
- バイトオーダーマーク (BOM)
- 制御文字
- UTF-8 として正しくないバイト列
制御文字には、VT (Vertical Tab–0B)、CR (Carriage Return–0D) が含まれます。
また、HT (Horizontal Tab–09) はカラムの区切り、LF (Line Feed–0A) は行末文字として扱われるため、データに含めることはできません。