github和csdn哪个好,github上的爬虫项目怎么运行

  github和csdn哪个好,github上的爬虫项目怎么运行

  在开发实际项目时,往往没有足够的数据,需要自己想办法获取。这个时候,你往往需要使用爬虫。但是,找了半天,你大概也找不到一个免费好用的爬虫。今天先说一个好的爬虫,这大概是项目成功的开始。

  编辑有三条评论

  1 综述类项目与学习资料

  首先给大家介绍一些优秀的复习学习项目,让大家快速索引,找到自己需要的资源。

  1.1、awesome-spider

  地址:https://github.com/facert/awesome-spider

  这是一个ID为facert的知乎工程师的开源,star6000。内容如下:

  这个爬虫收了几乎所有可以爬取的中文网址,从知乎豆瓣到知网,抖音微博到QQ元,还有很多不可描述的网站,你懂的。

  1.2、Nyspider

  地址:https://github.com/Nyloner/Nyspider

  这是一个ID为Nyloner的工程师做的,star1000的风格和上面的项目大相径庭。

  如你所见,它们是各种各样的网站。是头条,大概和这位小哥哥的工作有关。

  3、awesome-python-login-model

  地址:https://github.com/CriseLYJ/awesome-python-login-model

  这是ID为CriseLYJ(未知职业)的用户。这个项目用来模拟各种URL登陆,也包含一些简单的爬虫,star6000。

  从这个项目出发,分析一下各大网站的登录方式,非常有用。可以说,你可以在开始之前就找出你的对手。

  4、python-spider

  地址:https://github.com/Jack-Cherish/python-spider

  这是东北大学一个ID为Jack-Cherish的学生,star6000整理的关于学习python爬虫的资料,里面包含了很多实用的项目,非常适合想学习的朋友。

  还有一些其他项目,就不一一介绍了。

  https://github.com/jhao104/proxy_pool

  https://github.com/Ehco1996/Python-crawler

  2 优秀图片/视频项目

  我专注于图像和视频,所以这里有一个功能强大,简单好用的图片和视频爬虫。

  亲测工具长期有效,省去了很多找爬虫工具的时间,还不如早点用。

  2.1、Google,Baidu,Bing三大搜素引擎图片爬虫

  地址:https://github.com/sczhengyabin/Image-Downloader

  这个爬虫是由ID为sczhengyabin的用户组织的,可以根据需要抓取百度、必应、Google上的图片。我已经使用它好几年了,它提供了一个非常用户友好的GUI,便于操作。使用方法如下:

  使用python image_downloader_gui.py调用gui界面,配置参数(关键字、路径、抓取数量等。).关键字可以直接在这里输入,也可以从txt文件中选择。

  您可以配置需要爬网的样本数量。在这里,一次抓取2000个样本,需要3分钟才能正确完成。

  这个爬虫足以满足小项目(爬几千张高质量图片妥妥的)的初始数据集的积累,结果命名也非常工整规范,最大的优势就是稳定啊。不会三两天不能用的。

  2、各大视频网站爬虫

  地址:https://github.com/iawia002/的整个冬天

  由ID为iawia002的用户整理,大意是黑米是一个用go语言编码的视频下载工具,简单易用,支持youtube,腾讯视频,抖音等多个网站视频和图像的下载。收录的站点如下,可以说是全部有了:

  这个项目虽然可以下载图片,但是还是用它来下载视频吧。使用方法简单:

  整个冬天[可选参数] http://…(视频网址)

  视频将被下载到当前目录。至于那些可选参数,就去探索吧。

  今天到此为止吧。

  对了,有三个AI刚刚开启了深度学习项目,如下:

  https://github.com/longpeng2008/yousan.ai

  包括计算机视觉、语音、自然语言处理,支持caffe、tensorflow、pytorch、mxnet、paddlepaddle、darknet、deeplearning4j、matconvnet、keras、chainer、cntk、lasadge等框架。可以看看我们的介绍文章。

  [End]面向初学者的12个深度学习开源框架快速入门项目

  要说互联网圈最厉害的人,搞爬虫的沉默的孙一定在其中。他们大概是掌握信息最多,善于整合和抓取资源的人。如果身边有这么大的人,一定要牢牢抓住。

  谈论一系列文章

  【杂谈】深度学习是必须的,各路免费爬虫一举拿下。

  【杂谈】想当机器学习小霸王?先学会记笔记。

  【杂谈】那些很酷的深度学习网络图是怎么画出来的?

  【杂谈】如何学习阅读arxiv.org,才不会错过自己研究领域的最新论文?

  【杂谈】提高写代码效率要做的三件事

  【杂谈】为什么你学了AI公司就不要你了?

  【杂谈】白,对你来说是新的,不迷茫,有见识,不可知。你是哪个级别的深度学习工程师?

  【杂谈】三人行必有AI。你会成为他们中的一员吗?

  感谢大家的耐心阅读,也希望大家对自己的不足多提意见。后续内容会不定期呈现。请关注微信官方账号有三AI

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: