一、传统IR的相关性排序:
在web搜索引擎呈现之前,传统的IR(信息检索)体系被用来检索科技文献等纯文本文档,对检索的成果也涉及到相关性排序疑问。解决方法根据共有词汇假定(即一篇文档的内容可以用它所包括的词汇的调集来表明),选用经典的TF-IDF加权算法。TF即是一个词在文档中呈现的频率,它描绘该词在一篇特定文档中的重要性;IDF是倒排文档频率,它描绘的是该词在所有文档中呈现的频率,即该词的遍及重要性,如“我”,“啥”这些词简直在所有的文档中都会呈现,所以这些词即使在一篇特定的文档中呈现的频率很高,也不是很重要。总的来说即是,一个词在一篇特定文档的重要性,和TF成正比,和IDF成反比。
二、web搜索引擎的检索目标——页面,和传统IR的检索目标——文献等比较又有啥不一样呢:
1、HTML标签。和纯文本文档不一样,页面的文本被HTML标签所围住,这也给搜索引擎了解一个页面上啥内容更重要供给了丰厚信息。搜索引擎会给呈现在title标签中的词以最高的权重,H标签,strong等等标签中呈现关键字也会有较高的权重。另外页面修改会使用HTML标签对页面进行排版,所以呈现在页面开端有些的内容被搜索引擎认为是更重要的。
2、超连接。网站建设页面和页面之间的连接是一种“参阅”和“引荐”的联系。一个页面被许多页面所连接,那这个页面很可能是重要的。(连接的数量)而且搜索引擎会参阅彼此连接的一个页面内容和连接的锚文正本判别另一个页面的内容。(连接的相关性)
三、在现在的web查询形式下,搜索引擎经过用户行动发掘体系收集用户行动,加入到搜索引擎排行算法中。
比方,在搜索引擎中你那个关键字的查询成果页面,用户更多地点击了你的页面而并非排在你前面的,或许用户在你网站阅读的时刻远大于你的同行网站,则阐明你更受欢迎,搜索引擎会给予更高的权重。
info@dongbaqu.com
4000-117-087
15166039966
北京 - 海淀区海淀西大街36号9层A65室
青岛 - 市北区山东路177号鲁邦广场B座701
成都 - 成都市高新区锦城大道666号4栋10层