企业做网站识别商品属性信息设计
日期 : 2020-12-06 15:52:40
识别商品属性信息设计。在电子商务网页中对商品信息的描述中,包含商品的特征词,因此结合超文本标记语言以及统计学规则,可以自动识别商品属性信息的所在位置,设计流程为:
检索电子商务网页中商品属性特征词典中的每一个词汇,若找到相配词汇,则将该词汇所在节点添加到候选集合中。再对后先集合中的每一个节点中,查询与其距离最近的上一级别的节点,若未能成功找到则将该节点排除,若能够找到则从上一级别的节点集合中将属于该节点的子节点删除。
利用统计学的规则,并结合提取规则,计算出节点中的表格子节点以及文本内容的子节点,并通过计算获得其数量的所占比例,若比值大于75%,则将该节点加入到提取集合当中,若小于75%,则将该节点排除。
检索电子商务网页中商品属性特征词典中的每一个词汇,若找到相配词汇,则将该词汇所在节点添加到候选集合中。再对后先集合中的每一个节点中,查询与其距离最近的上一级别的节点,若未能成功找到则将该节点排除,若能够找到则从上一级别的节点集合中将属于该节点的子节点删除。
利用统计学的规则,并结合提取规则,计算出节点中的表格子节点以及文本内容的子节点,并通过计算获得其数量的所占比例,若比值大于75%,则将该节点加入到提取集合当中,若小于75%,则将该节点排除。
上一篇:企业做网站网络爬虫技术的应用场景
下一篇:企业做网站缩减HTTP请求