被列为被执行人,看马蜂窝在转型之路上屡次捅破“蚂蜂窝”!

上一篇写了个利用爬虫挣钱的框架,这篇写细一点,我曾经做过的一个简单数据整合挣网盟收入的案例。

利用爬虫挣钱系列2-细说数据整合

上一篇讲述了企查查/天眼查这类提供企业工商信息查询服务,他的企业立家根本就是抓取企业工商信息和整合这些数据的能力,这在抓全率和准确性上要求颇高,这需要一个团队来完成才行。

我在研究这类公司流量来源时,观察到从搜索引擎来的流量不错,就在思考做一个简易版的企业工商信息查询用于获取搜索流量。

你要问:为什么已经有几个这类网站了,我还要做这个呢?

因为中国有几千万家公司,每一家公司都是一张网页的话,就有几千万张网页,从SEO(搜索引擎优化)来讲,你的网K K )页越多,薅到的搜索流量概率就大F / b f $一点,a R b j j如果只D t a a 7是几千几万个网页,你薅到流量的概率可能W + {是0,但是量级到千万时,你的机会就被放大了。

利用爬虫挣钱系列2-细说数据整合

你还要 . I d 2 g在问:你都是抓人家的网页,搜索引擎凭什么给你排名,给你流X + D h = m量?

第一,已有的网站 在SEO的标题关键词设置上 还m k u有做得更好的空间。第二,我肯定不是全复制,a 6 ( J k 9 !会糅杂一些内容在里面。第三,概率问题,因为有几千万个网页(这些页面] 2 y j内容是~ [ U有价值的),足够多,有概率做到有排名和有流量的可能性。(搜- ] = D K v 9索引擎排名虽然有算法控制,我估计还写了大量的规则在控制,规则写多了有个缺陷,就是自己都搞不清楚规则间的关联性了。开玩笑的!)

就这样我就撸起袖子开始写爬虫了,大约写了四周多,因h . ( R a * N l为需N G f y要拨号3 D Z l = o e换IP,就买了一个歪的可以拨2 @ Q 4 . 号的云主机,中间大部分时间都在解决这台云主机的自身限制问题,这台主机只有500M空余内存,1G多空余硬盘空间,我大部分时间都在想怎么把这几千万家工商信息html放进1G多的硬盘里,怎么把爬虫的运行内存控制在500M以内。

由于是个单台爬虫程序,把网页抓取完又用了1个多月。这中间还到国庆放假,白天就在泸沽湖晚,晚上就在房间里调试程序,fxxk,网页又改版了,账号又不能用了,程序咋又停掉了呢,当程序员就是一直陷在这种代码调试,不断口念fxxk的生活中。= O s f

利用爬虫挣钱系列2-细说数据整合

这抓取的过V k % m 7 x G e 9程间隙,我找了一个前端同事写了个最简单html网站,只有5,6个页面,真的是简单。我就在想后端程序的问题,就我一个人一杆枪,还是个前途未卜的网站,不可能写个很好的后端程序,关键是数据库里有几千万条数据,要支R B 1 G =持各种分类查询,翻页操作,于是就想办法针对这个业务本身的性质做优化,在数据库操作和缓存上做特定的方式,这N . & X F J V M .样我就可以一个人搞定所有,任何查询都在几百毫秒内响应。这个借鉴了大V caoz写数据索引文章的思路。

数据抓完,网站上线,提交了搜索引擎,那个网站基本没人管,过了大半4 ] M V年后有小几万IP,每个月的网盟收入有几千块,现在流量和收入都还在往上涨,虽然对于公司来说算少的,但是只花了两月时间,后续没有维护,产出比还是可以的。

PS:还是强调,抓取的数据和商用数据,要合法合规,现在的尺度越来越收紧了。

上一篇

PS5有足够的能力让CPU和GPU超频运行 玩游戏也能保持

下一篇

麒麟芯片架构是买的ARM的,生产是台积电代工,自己有什么?

评论已经被关闭。

插入图片
返回顶部