分享到:

项亮:论爬虫工程师的自我修养

昨天发了关于爬虫的文章后,我们收到了宜信大数据的高级将领-项亮同志的投稿,我们全文刊登如下:

爬虫是干什么的,爬虫就是去网上抓取各种信息的工具。现在这个大数据时代,什么最重要?数据挖掘?NO!机器学习?NO!分布式系统?NO!没有数据,搞个毛啊。而爬虫就是整个大数据的门票,进不去门,只能拉裤裆里了。

很多知道爬虫的工程师,都觉得这是个脏活,不愿意做。以至于很多公司在招聘爬虫工程师时都羞羞答答的,唯恐候选人知道自已要过来做爬虫。我想说的是,爬虫必须是个两情相悦的事情,不喜欢的人是没有可能做好的。

能干好爬虫的人一定是极其NB的。比如业界极其有名的梁总。为什么这么说呢?因为爬虫是一种对抗型的工作。和他类似的工作诸如打游戏,炒股,战争。主席他老人家要是来做爬虫,一定是独孤求败。

我们来对比一下爬虫和各个其他的技术工种。

1. 前端工程师

对,你们的工作成果就是供爬虫工程师去抓取和解析的。你们只需要学会一种框架,并用它写出前端代码。而爬虫工程师的任务是,不管你代码写的多烂,总能准确的从中找到有用的东西解析出来。不管你是给政府写网站的,还是给BAT写网站的。不管你用的是vim写出来的,还是用frontpage画出来的,我们都能看懂。你的ajax调用参数传错了,咱能发现对的应该怎么传。我们甚至比你们还了解你们的后端工程师开发的接口有多么强大。

2. 后端工程师

我想论谁了解HTTP的协议,应该很少有超过搞爬虫的了。你们的服务RPS是多少,咱都可以测出来。而且我们特别有良心,总是把我们的抓取次数控制在你们的rps能抗住的程度下。我们的原则是不给大家添麻烦。促进行业良性循环。为了搞定这事,咱也弄zookeeper,也弄redis,也弄分布式队列。这都是爬虫工程师的基本功,没这些家底就不好意思出来混饭吃了。说起存储,我们也是很关心的。什么hdfs,hbase,kafka,flume,我们都用。什么场景用什么,我们也都是研究过的,我们也是很关注实时性的。大家都误解我们是搞离线任务的,挂了就挂了。殊不知我们特别关注实时性的,单点故障在我们这儿是绝对不允许的。

3. 运维工程师

我想说,我们不仅关心自己的服务器是不是挂了,我们还是很关心我们抓取的网站的服务器是否挂了。甚至对方服务器慢了,我们都知道。我们监控一切,实时报警。

3. 数据挖掘工程师

对,你们分析的数据都是我们提供的。如果你来干我的活,你会深刻体会到你之前的活是多么的惬意。

4. 其他

我们也写android,iphone应用。用户用什么,我们就跟着后面走。我们有时还写写多年隐秘江湖的windows应用。一切技术手段都是用来解决问题的,不是用来炫技的。爬虫极其需要解决问题的能力。

我说这些不是为了鄙视大家的工作。只是因为我们苦逼惯了,终于找到一个机会发泄一下。我这辈子第一次接触爬虫其实是在中考结束的时候,那时候我们班一个同学用vb写了一个程序,提交post请求给查分网站。当时我就觉得这事特别神奇,直到上了大学,我才知道原来这就是HTTP POST。

下面说说我们的招聘要求:

  1. 梁总教导我们,爬虫工程师需要对数据有极度的渴望,当看到一堆数据时,能敏锐的判断出他的价值。并且不把数据抓下来,就睡不着觉。

2. 坚韧不拔!坚韧不拔!坚韧不拔!古话说,一力降十会!(我不会告诉你这句话的后半句是,四两拨千斤)

3. 能写程序,了解基本的数据结构和算法。2分钟内写出二分搜索,4分钟内写出快排。各种数据结构信手拈来。

4. 想成为一个全栈工程师:我想说,做爬虫是你达到全栈的最好选择。

5. 喜欢从事对抗性活动。

下面说说我们不做要求的:

1. 之前是否做过爬虫?做过当然更好,没做过也没关系。对于一个爬虫工程师来说,第一重要的是兴趣!我们特别希望现在没有从事爬虫工作的开发工程师忽然喜欢这项事业并加入进来。

简历请投递至 yunyunzhang5@creditease.cn

最后我还要唠叨一下爬虫工程师的社会价值。爬虫工程师是促进社会公平自由的重要力量。数据大多数是老百姓产生和创造的,最终也应该用来服务老百姓。

(完)

本期封面:某博士的毕业留影,他将会继续努力为人民服务,谢谢。

【网友来信】

网友A:梁博,什么时候可以来我们team分享一下做爬虫的心得体会?今天你发的文章我也很有共鸣。最近接手了原来的抓取team,原团队的成员基本都流露出不想做爬虫,想转岗甚至离职的想法,我也只能尽量安慰大家,并同意在抓取和业务之间可以互相流动。但是最终我还是希望做抓取的同学能热爱这份工作,希望你能给我们分享一些技术和心得

答:爬虫确实太特殊了,我在明天的节目中会谢谢我怎么通过爬虫赚钱的,赚钱总是会给人动力的,当然其实不仅仅是赚钱,还有特别挑战性的工作,抓微博,微信数据都是特别挑战的。

网友B:原来我在百度地图做PM,负责基础数据的建设工作,其中一块特别重要的内容就是抓取互联网POI数据,所以爬数据也算是爬出了不少经验,真的是又好玩又低调的工作,能坚持做这一块的研发确实很少,但每次合作都能有很大的产出。

答:我们也抓过Factual大约2000多万条POI数据,但这个数据市场销路有限,几乎没人买。。

网友C: 日本著名篮球运动员赤木纲宪说过,控制篮板球就能赢下整场比赛

答:这是动画片里面的人物吧?我读书少,别忽悠我啊。

网友D:梁博 做爬虫一些常用的工具能不能介绍下呢 刚入行 不太了解

答:这个很难讲,今天的节目中项亮提到了一些,总之会有很多工具,是一整套工具箱,而且有些需要自制。

其他常见问题

Q:创业公司如何打广告

A:创业公司招聘广告,如果含公司介绍可以免费发,具体联系编辑:pennyjob@qq.com。谢谢。

Q:如何在pennyjob投放广告

A:我们暂时只服务码农的找工作需求和熟人的招聘告发布。请找工作的码农联系:pennyjob@qq.com 发布你们的求职信息,永久免费

Q:本栏目担保的靠谱服务有哪些

A:详见: http://assurances.pennyjob.net/

标签: 爬虫