火车头采集软件如何批量采集网页数据
的有关信息介绍如下:方法/步骤
1
打开软件并注册
2
新建分组,新建任务
3
打开界面,按顺序填入您想采集的网址以及采集的选择范围,范围从网页的源代码里选取不重复的代码段,不然会报错。这个网址可以是直接是要采集的内容页也可以是分页,本例以最简单的直接采集页面为例,那么选择级别为“0”
4
编辑内容采集的规则,也是要求能识别的标志性代码段,能够唯一识别或最早识别所需采集内容的。这样出来结果是一条数据。
5
如果采集网址内容有规律的重复,且为我们需要的数据,可以点击“循环匹配”这样能采集下来所有相同代码段的内容。这样出来结果是格式相同的n条数据。
6
选择发布的格式,好多收费的,txt不收费,自己看的话可以选此,有其他需要请自行选择,另外模板标签需要自己编辑。
7
图例为采集结果,直观显示,如果问题亦会在此报错。
8
选择任务,右键单击“开始”即可。
END