企业网站设计网页内容解析
日期 : 2021-01-03 16:50:01
网页内容解析。利用网络爬虫抓取的网页, 主要是静态网页。
为提高索引的精确度, 本系统采用了第三方的HTMLParser解析网页。
其使用方法是继承HTMLParser的基类Extractor来实现对HTML文件的解析。处理后是以文本文件格式存储的, 以便之后分词和建立索引使用。
为提高索引的精确度, 本系统采用了第三方的HTMLParser解析网页。
其使用方法是继承HTMLParser的基类Extractor来实现对HTML文件的解析。处理后是以文本文件格式存储的, 以便之后分词和建立索引使用。
上一篇:企业网站设计网页支撑层
下一篇:企业网站设计search类型