蜘蛛爬行:搜索引擎派出“蜘蛛”(网页抓取程序)进行网页抓取,爬取网页时一般采用深度优先、宽度优先或最佳优先策略;抓取建库:将蜘蛛抓取到的网页放到原始数据库中,并丢弃掉不符合抓取规则的网页;网页处理:对符合规则的网页进行预处理,主要包括网页结构化、分词、降噪、建立索引等;检索服务:根据用户提交的关键词从数据库中将符合匹配规则的网页调取,并根据权重排序规则对其进行排序;结果展示:将排序好的网页按不同的方式呈现给用户。
本文地址://www.qlpinke.com//article/27632.html