八爪鱼采集器怎样操作,八爪鱼软件的自定义采集工作方式下

  八爪鱼采集器怎样操作,八爪鱼软件的自定义采集工作方式下

  有了上次使用模板抓取数据的经验,相信你应该能熟练使用octopus collector。也许有些朋友很好奇。只能通过软件预设的模板抓取数据吗?当然不是。Octopus collector还有自定义收集功能,供用户收集自己想要的数据。与预置模块相比,定制更加灵活。虽然比预置的模板复杂,但爬取的数据更符合你的意愿。这篇文章是为你整理的。

  

步骤一

 

  首先像往常一样,启动并登录你的octopus collector,进入主界面,点击【新建】下的【新建任务组】,新建一个组。

  单击“确定”创建新组。

  

步骤二

 

  创建组后,点击【新建】下的自定义任务,得到这样的界面。

  我们可以寻找链接到我们想要抓取的网页。在这里,边肖去JD.COM搜索手机,当搜索结果出来时,我们可以复制链接。

  将复制的链接粘贴到URL列,将任务组更改为之前创建的组,然后单击[保存设置]。

  

步骤三

 

  保存后会跳转到抓取界面,软件会自动开始识别网页中要抓取的部分。根据个人机器的网速不同,对应的等待时间也不同。

  鉴定后可以看到数据很多,其中有很多无用的数据需要剔除。

  将光标移到表格字段上,会出现两个图标。钢笔图标是更改字段名称,垃圾桶是删除这个字段。

  我们可以随意删除和更改字段名,这里边肖只保留上图中的字段。

  

步骤四

 

  设置完字段后,我们将注意力转向上图中的小方框。第一个不是可选的,我们直接忽略。

  收集前面的滚动页面加载更多的数据:因为现在很多网站都采用动态页面,有些内容在加载的时候是不会显示的,只有在我们下拉的时候才会逐渐显示,而这个功能就是为了防止这种情况的发生。

  翻页并收集多页数据:设置为抓取多个页面,取消选中则只抓取当前页面。

  点击列表中的XXX,收集下一级页面:该功能允许我们抓取子页面中的内容。

  这里就不抓取了,只勾选前两项,然后点击【生成采集设置】。

  点击生成后,您将开始保存或查看。点击此处保存并开始收集。

  

步骤五

 

  到了这个界面之后,我们可以看到一个详细的流程,里面的循环列表就是这个页面上爬取的内容。

  我们单击外部循环的设置按钮。

  退出循环设置,并检查循环执行的次数。在这里,我们只抓取3页。

  开始收集。

  收集,点击导出。

  另外,如果你抓取的页面中有重复数据,软件会直接提示,根据你自己的情况选择保留或删除。

  导出模式

  保存导出文件的位置

  保存完成

  图像数据

  以上是边肖带来的章鱼采集器自定义模块教程。熟练使用后,相信朋友们可以收集到更多的数据。使用octopus collector收集数据后,可以根据收集到的数据分析并完成各种任务。希望这篇文章能帮到你。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: