Согласно BM25, чем короче текст в документе, тем релевантней будет документ, верно?
В BM25F учитываются поля документа, и тут у меня возникает вопрос - будет учитываться длина всего документа, или отдельных полей?
К примеру, рассматривается несколько документов, в первом тайтл только с точным вхождением, а весь документ длиной в 2000 символов. Во втором документе в тайтле точное вхождение с дополнительными словами, т.е. тайтл длиннее. В документе 1500 слов. Для упрощения представим, что в самом тексте вхождений одинаковое кол-во.
Главный вопрос - текст, ясное дело, релевантней во втором документе. Но вот вопрос - тайтл будет релевантей у первого документа? Каждое поле рассчитывается отдельно для документа, и потом определяется среднее значение, или как?