1.2 设置任务搜集规则

这一步设置很关键,直接影响搜集到的记录条数,和数据的有效性。

每添加一条规则,程序就会在 搜集结果数据库 中添加一个字段(设置了多少条规则,数据库中就有多少个字段)。

蓝鸟网搜的搜集规则是树形结构,以匹配网页的层次结构,同一层次的树结点表示数据来自于同一网页,它们在树中的上下位置表示该数据在网页中的前后顺序。树根表示目标网址的网页。

下图是一个FLASH动画搜集任务的规则树:

目标网址网页(动画列表网页)包含了动画网址所在网页的链接(树枝)、动画缩略图(树叶)和动画标题(树叶),所以这些规则添加在树根点下;而动画网址是在子网页中出现的,所以放在第二层树结点上(动画列表页包含了动画的链接,点击这些链接打开动画播放网页,而动画播放网页才有我们需要的动画网址信息)。

注:树枝表示该结点有子结点;树叶表示该结点无子结点。

1.2.1 添加规则

在规则树选中一个树枝结点,点击“添加”按钮,则在当前规则下添加一个子规则:

1.2.1.1 规则类型

规则分三种类型,第一种是数据类型规则:

任何一种类型的规则基本信息是必填栏目,只有输入基本信息“添加”按钮才可用,否则该按钮是灰色的。附加选项是对搜集到的数据进行加工处理的设置,稍后再介绍,现在先介绍规则类型:

数据类型规则是普通规则,即我们要搜集的数据,在规则树上是树叶结点,在数据库是一个字段(一列)。

第二种是网页类型规则:

网页类型规则表示该规则搜集到的数据是一个链接,这个链接打开的网页中才有我们需要搜集的数据,这种规则在规则树是树枝结点,而且规则名称也不用输入,在规则树用“@”符号代替,这种规则不会产生数据库字段。

第三种是固定值 类型规则:

这种规则只需设置规则名称和起始标记,在数据库中也产生一个字段,即在所有搜集到的记录中添加一个值(起始标记设置的值)。 我们可以在动画搜集任务中添加一个固定值规则,规则名称设置为“分类”,起始标记设为“动作类”,即表示在所有搜集的动画记录中添加一项“动作类”数据,就等于把搜集到的动画全部放在“动画类”类别里了。这样做的好处,做过站长的用户应该比较明白的了。

1.2.1.2 规则名称

用户为新添加的规则命名,50个字符内任意中文、英文或数字的组合,规则名称可重复。

1.2.1.3 起始标记

起始标记和结束标记配合使用,用于在网页中定位我们需要搜集的数据,如果是固定值规则,则该栏目表示固定值 的 值。

1.2.1.4 结束标记

和起始标记配合使用。

例如有一行HTML代码:

<div class="i"><a href="../flash/22165.htm" target="_blank"><img src="/fl_7/20090402/chaojimali.jpg"/></a></div>

如果这条规则是要提取链接信息(红色部分内容),我们可把标记头设置为:<div class="i"><a href=",把标记尾设置为:" target="_blank">,当然也可以把标记头设置为:<a href=",把标记尾设置为",但本人建议尽量选取多一点内容,特别是跟其他网页有区别的标志信息一定要选上,这样可以增加搜集到的数据的有效性,不至于搜集到许多无用的数据。

1.2.1.5 附加前缀

设置了该栏目,则系统会自动在搜集的数据的前面添加上该值再存入数据库。

1.2.1.5 附加后缀

设置了该栏目,则系统会自动在搜集的数据的后面添加上该值再存入数据库。

例如有些网站的下载链接有统一的格式:http://www.domain.com/download.asp?id=XXXX&flag=1

其中XXXX表示一个软件的ID号,如果我们在软件列表页面能获取软件的ID信息,那我们就可以设置附加前缀:http://www.domain.com/download.asp?id=,附加后缀:&flag=1,这样就组成了软件的下载地址,而不用从软件下载页面获取下载地址了。

1.2.1.5 删除HTML标记

设置了该栏目,则系统自动在搜集到的数据中删除指定的HTML标记,HTML标记用<>[]括起来,多个HTML标记间以|号分隔。标记不区分大小写。

尖括号<>表示该标记和反标记</>本身,方括号表示删除标记和反标记之间的所有内容

例如:<div>|[script]|<p>

删除<div>表示删除所有<div ... > 和 </div ... > 内容,

[script]表示删除所有 <script ... > 到 </script ...> 之间的所有内容。

方括号需慎用,一般仅限于删除Script类脚本HTML标记使用。

1.2.1.6 保留HTML标记

如果设置了该栏目则系统对搜集到的数据保留指定的HTML,以尖括号方式删除其他所有HTML标记。HTML标记用<>括起来,多个HTML标记间以|号分隔。

例如:<table>|<tr>|<td>表示只保留表格类标记

删除和保留HTML标记注意事项:

1. 不用添加某标记的反标记,如:设置了<div>不用设置</div>;

2. 保留HTML标记没有方括号[]方式。

3. 标记不用区分大小,即<div>、<Div>和<DIV>都是一样的。

1.2.1.7 相对网址转换成绝对网址

选中该选项,则系统对搜集到的数据进行相应操作。例如从某FLASH网站http://www.domain.com搜集到的动画地址都是/flashlib/1234.swf格式,则需选中该选项,系统自动处理为:http://www.domain.com/flashlib/1234.swf后再存入数据库。

1.2.1.8 讯雷、快车地址解码

如果该规则搜集到的是一个讯雷thunder://...或网际快车flashget://...的下载地址,则该选项让系统对数据作相应解码处理后存入数据库。

1.2.2 编辑规则

对选中的的规则进行修改操作

1.2.3 删除规则

删除选中规则和其包含的子规则(如果有的话)。

1.2.4 上移 和 1.2.5 下移

使选中规则在规则树同一层次上 上移或下移 一个位置。

数据在网页中出现的顺序决定了规则在树中的上下位置,所以规则在树中的上下位置至关重要。

1.2.6 只搜集满足所有规则的数据

选中该选项则丢弃只满部分规则的记录,宁缺勿滥。

 

上一页 帮助首页  下一页 执行任务