|
1.2 设置任务搜集规则 这一步设置很关键,直接影响搜集到的记录条数,和数据的有效性。 每添加一条规则,程序就会在 搜集结果数据库 中添加一个字段(设置了多少条规则,数据库中就有多少个字段)。 蓝鸟网搜的搜集规则是树形结构,以匹配网页的层次结构,同一层次的树结点表示数据来自于同一网页,它们在树中的上下位置表示该数据在网页中的前后顺序。树根表示目标网址的网页。 下图是一个FLASH动画搜集任务的规则树:
目标网址网页(动画列表网页)包含了动画网址所在网页的链接(树枝)、动画缩略图(树叶)和动画标题(树叶),所以这些规则添加在树根点下;而动画网址是在子网页中出现的,所以放在第二层树结点上(动画列表页包含了动画的链接,点击这些链接打开动画播放网页,而动画播放网页才有我们需要的动画网址信息)。 注:树枝表示该结点有子结点;树叶表示该结点无子结点。 1.2.1 添加规则 在规则树选中一个树枝结点,点击“添加”按钮,则在当前规则下添加一个子规则: 1.2.1.1 规则类型 规则分三种类型,第一种是数据类型规则:
任何一种类型的规则基本信息是必填栏目,只有输入基本信息“添加”按钮才可用,否则该按钮是灰色的。附加选项是对搜集到的数据进行加工处理的设置,稍后再介绍,现在先介绍规则类型: 数据类型规则是普通规则,即我们要搜集的数据,在规则树上是树叶结点,在数据库是一个字段(一列)。 第二种是网页类型规则:
网页类型规则表示该规则搜集到的数据是一个链接,这个链接打开的网页中才有我们需要搜集的数据,这种规则在规则树是树枝结点,而且规则名称也不用输入,在规则树用“@”符号代替,这种规则不会产生数据库字段。 第三种是固定值 类型规则:
这种规则只需设置规则名称和起始标记,在数据库中也产生一个字段,即在所有搜集到的记录中添加一个值(起始标记设置的值)。 我们可以在动画搜集任务中添加一个固定值规则,规则名称设置为“分类”,起始标记设为“动作类”,即表示在所有搜集的动画记录中添加一项“动作类”数据,就等于把搜集到的动画全部放在“动画类”类别里了。这样做的好处,做过站长的用户应该比较明白的了。 1.2.1.2 规则名称 用户为新添加的规则命名,50个字符内任意中文、英文或数字的组合,规则名称可重复。 1.2.1.3 起始标记 起始标记和结束标记配合使用,用于在网页中定位我们需要搜集的数据,如果是固定值规则,则该栏目表示固定值 的 值。 1.2.1.4 结束标记 和起始标记配合使用。 例如有一行HTML代码: <div class="i"><a href="../flash/22165.htm" target="_blank"><img src="/fl_7/20090402/chaojimali.jpg"/></a></div> 如果这条规则是要提取链接信息(红色部分内容),我们可把标记头设置为:<div class="i"><a href=",把标记尾设置为:" target="_blank">,当然也可以把标记头设置为:<a href=",把标记尾设置为",但本人建议尽量选取多一点内容,特别是跟其他网页有区别的标志信息一定要选上,这样可以增加搜集到的数据的有效性,不至于搜集到许多无用的数据。 1.2.1.5 附加前缀 设置了该栏目,则系统会自动在搜集的数据的前面添加上该值再存入数据库。 1.2.1.5 附加后缀 设置了该栏目,则系统会自动在搜集的数据的后面添加上该值再存入数据库。 例如有些网站的下载链接有统一的格式:http://www.domain.com/download.asp?id=XXXX&flag=1 其中XXXX表示一个软件的ID号,如果我们在软件列表页面能获取软件的ID信息,那我们就可以设置附加前缀:http://www.domain.com/download.asp?id=,附加后缀:&flag=1,这样就组成了软件的下载地址,而不用从软件下载页面获取下载地址了。 1.2.1.5 删除HTML标记 设置了该栏目,则系统自动在搜集到的数据中删除指定的HTML标记,HTML标记用<>或[]括起来,多个HTML标记间以|号分隔。标记不区分大小写。 尖括号<>表示该标记和反标记</>本身,方括号表示删除标记和反标记之间的所有内容 例如:<div>|[script]|<p> 删除<div>表示删除所有<div ... > 和 </div ... > 内容, [script]表示删除所有 <script ... > 到 </script ...> 之间的所有内容。 方括号需慎用,一般仅限于删除Script类脚本HTML标记使用。 1.2.1.6 保留HTML标记 如果设置了该栏目则系统对搜集到的数据保留指定的HTML,以尖括号方式删除其他所有HTML标记。HTML标记用<>括起来,多个HTML标记间以|号分隔。 例如:<table>|<tr>|<td>表示只保留表格类标记 删除和保留HTML标记注意事项: 1. 不用添加某标记的反标记,如:设置了<div>不用设置</div>; 2. 保留HTML标记没有方括号[]方式。 3. 标记不用区分大小,即<div>、<Div>和<DIV>都是一样的。 1.2.1.7 相对网址转换成绝对网址 选中该选项,则系统对搜集到的数据进行相应操作。例如从某FLASH网站http://www.domain.com搜集到的动画地址都是/flashlib/1234.swf格式,则需选中该选项,系统自动处理为:http://www.domain.com/flashlib/1234.swf后再存入数据库。 1.2.1.8 讯雷、快车地址解码 如果该规则搜集到的是一个讯雷thunder://...或网际快车flashget://...的下载地址,则该选项让系统对数据作相应解码处理后存入数据库。 1.2.2 编辑规则 对选中的的规则进行修改操作 1.2.3 删除规则 删除选中规则和其包含的子规则(如果有的话)。 1.2.4 上移 和 1.2.5 下移 使选中规则在规则树同一层次上 上移或下移 一个位置。 数据在网页中出现的顺序决定了规则在树中的上下位置,所以规则在树中的上下位置至关重要。 1.2.6 只搜集满足所有规则的数据 选中该选项则丢弃只满部分规则的记录,宁缺勿滥。
|
||