首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

网页切片算法的若干问题

这是我研究网页切片算法的一个汇总想法。     之前我写过:一种面向搜索引擎的网页分块、切片的原理,实现和演示 ,随着工作的深入,逐渐碰到以下问题: 网页切片的粒度问题:            网页切片算法的目的不是精确找到所需要的内容,而是识别划分网页的各种功能区域,导航区,链接区,内容,页脚区和广告区等。   网页切片的网页对象:           互连网纱功能的网页大概有2种类型,目录型和内容型;随着搜索引擎的发展,网站结构逐渐向扁平化的方向发展,车东 对此也做出了数据验证,而且随着显示器分辨率的不断提高,内容和目录结合型的网页呈增加趋势,天极的网页涉及,可以说是其中的典范。    网页切片算法的对象应该是针对:内容型和内容目录混合型。对不同网页,应该有个识别算法,应该包括哪些标准?     网页内容区最大范围识别:            从切片的粒度可以看出,应该把内容区作为一个部分单独切出来。根据一般的网页设计规律,一般有2种容纳内容区的方式:1、包含型(如blog ) 2、并列型(如bbs帖子)。     如果处理分页的内容型网页:            现在大多数网站为了改善用户体验和增加页面展示次数的需要,对网页做了分页处理,这部分需要设别出来。     无意间看到了:VIPS:基于视觉的Web页面分页算法 ,从理论上证明了这种方法的可行性。可是实现起来有很多障碍,正如这位所说的:

04

用GPT-2做个“姥爷”!57行代码给《瑞克和莫蒂》写新剧集

随着机器学习(Machine Learning, ML)和自然语言处理(Natural Language Processing, NLP)技术的快速进展,新算法具备生成文本的能力,这些文本也变得越来越接近人类写出的内容。GPT21就是其中一个算法,它被应用在很多开源项目2中。GPT2以WebText为训练集,WebText包含4500万条来自Reddit(一个对新闻进行评论的网络社区)的外链。其中占据外链内容前10的主要数据3来自Google,Archive,Blogspot,Github,NYTimes,WordPress,Washington Post,Wikia,BBC以及The Guardian。受过训练的GPT2模型能根据具体数据集再被进一步调校,比如说最终能够抓取某个数据集的风格或者能够做文档分类。

03
领券