爬虫小器合集 | 不见面编程也克爬数据

手上底主流爬虫手段是因此Python编程,Python的强大毋庸置疑,但新家学习Python还是要一两独月时之。有没来一部分再简明的爬取数据方式为?答案是片,DataCastle为你准备了如下小器,对于每个微器而偏偏需要花费十几分钟时间,跟着我之步子走相同方方面面就是可掌握其啦~

一、Microsoft Excel

首先让大家一个用Excel爬取多少的法,这里用底Microsoft Excel
2013版,下面手把手开始教学~

(1)新建Excel,打开她,如下图所示

(2)点击“数据”——“自网站”

(3)在弹出的对话框中输入目标网址,这里因全国实时空气质量网站为例,点击转到,再导入

选取导入位置,确定

(4)结果如下图所显示,怎么样,是不是好赞赏?

(5)如果假定实时更新数据,可以于“数据”——“全部创新”——“连接性”中进行安装,输入更新频率即可

二、Google Sheet

用Google
Sheet爬取多少前,要确保三接触:使用Chrome浏览器、拥有Google账号、电脑都翻墙。如果就三独标准化有所了吧,下面我们虽起来吧~

(1)打开Google
Sheet网站:

(2)在首页上点击“转到Google表格”,然后登录自己之账号,可以看到如下界面,再点击“+”创建新的报表

新建的表如下:

(3)打开要爬取的靶子网站,一个全国实时空气质量网站
,目标网站上之报表结构使下图所示

(4)回到Google sheet页面,使用函数=IMPORTHTML(网址, 查询,
索引),“网址”就是只要爬取数据的对象网站,“查询”中输入“list”或“table”,这个在数量的切实组织类型,“索引”填阿拉伯数字,从1初步,对承诺着网站面临定义的啊一样客报表或列表

于我们要爬取的网站,我们以Google
sheet的A1单元格中输入函数=IMPORTHTML(“http://www.pm25.in/rank”,”table”,1),回车后便爬得多少啦

(5)将爬取好之表科技美学存到本地

凡免是感觉超级简单?

三、you-get

眼看是一个程序员基于python
3开发的类,已经以github上面开源,支持64单网站,包括优酷、土豆、爱奇艺、b站、酷狗音乐、虾米……总的而会想到的网站都出!
还有一个黑科技之地方,即使是名单上没底网站,当您输入链接,程序也会见怀疑你想只要下充斥什么,然后帮你下载。当然you-get要于python3条件下开展安装,用pip安装好后,在顶峰输入“you
get+你想生充斥资源的链接”就可以等在藏资源了。

此被一个you-get的汉语使用说明,按照说明上勾画的以步骤操作就足以啊。

未完待续……以后DataCastle还见面延续添部分概括好用之爬虫小器的,记得支持一下啦~