跳到内容

评分

通过 `scoring` 参数启用评分支持。

此评分实例根据设置的不同,可以用于两种目的。

一种用例是构建稀疏/关键字索引。这在 `terms` 参数设置为 `True` 时发生。

另一种用例是词向量术语加权。此功能自初始版本以来一直可用,但现在不再那么常见了。

以下介绍可用选项。

方法

method: bm25|tfidf|sif|pgtext|custom

设置评分方法。通过将此参数设置为完全可解析的类字符串来添加自定义评分。

pgtext

schema: database schema to store keyword index - defaults to being
        determined by the database

Postgres 全文关键字索引的附加设置。

术语

terms: boolean|dict

为评分实例启用术语频率稀疏数组。这是稀疏关键字索引的后端。

支持包含参数 `cachelimit` 和 `cutoff` 的 `dict`。

`cachelimit` 是索引期间在写入磁盘之前使用的最大驻留内存量(以字节为单位)。此参数为 `int` 类型。

`cutoff` 在搜索期间用于确定什么是常见术语。此参数为 `float` 类型,例如,0.1 表示截断百分比为 10%。

当 `terms` 设置为 `True` 时,`cachelimit` 和 `cutoff` 使用默认参数。通常,这些默认值就足够了。

归一化

normalize: boolean

启用归一化评分(范围从 0 到 1)。启用后,将使用索引中的统计数据来计算归一化分数。