| Согласно BM25, чем короче текст в документе, тем релевантней будет документ, верно? В BM25F учитываются поля документа, и тут у меня возникает вопрос - будет учитываться длина всего документа, или отдельных полей? К примеру, рассматривается несколько документов, в первом тайтл только с точным вхождением, а весь документ длиной в 2000 символов. Во втором документе в тайтле точное вхождение с дополнительными словами, т.е. тайтл длиннее. В документе 1500 слов. Для упрощения представим, что в самом тексте вхождений одинаковое кол-во. Главный вопрос - текст, ясное дело, релевантней во втором документе. Но вот вопрос - тайтл будет релевантей у первого документа? Каждое поле рассчитывается отдельно для документа, и потом определяется среднее значение, или как? |
|