搜索
bottom↓
回复: 51

奇葩老板,三天之内要一个爬虫程序,怕是要丢饭碗了。...

  [复制链接]

出0入0汤圆

发表于 2017-6-27 22:50:41 | 显示全部楼层 |阅读模式
说是要对某一网站进行关键字搜爬,爬到的信息全进XLS文档,晕了。。。。

求个现成的原码我改改也中啊。。。。

阿莫论坛20周年了!感谢大家的支持与爱护!!

知道什么是神吗?其实神本来也是人,只不过神做了人做不到的事情 所以才成了神。 (头文字D, 杜汶泽)

出0入0汤圆

发表于 2017-6-27 22:52:55 | 显示全部楼层
大型网站还是小型网站?静态还是动态?

如果要编程实现,就用python,很多范例参考

如果要歪门邪道,是静态小型网站的话,可以用离线下载工具,然后用搜索工具遍历

出0入0汤圆

 楼主| 发表于 2017-6-27 23:09:02 | 显示全部楼层
FireHe 发表于 2017-6-27 22:52
大型网站还是小型网站?静态还是动态?

如果要编程实现,就用python,很多范例参考

大哥,不要开玩笑好不?要不您给个PYTHON例程一用,急着上焱了。。。。。谢谢先

出0入0汤圆

发表于 2017-6-27 23:20:26 | 显示全部楼层
dianzichina 发表于 2017-6-27 23:09
大哥,不要开玩笑好不?要不您给个PYTHON例程一用,急着上焱了。。。。。谢谢先 ...

这个东西没有完全现成可以用的。都是根据实际需求调整的。
三天时间够了,学一学,google一下就差不多了

出0入0汤圆

 楼主| 发表于 2017-6-27 23:31:44 | 显示全部楼层
FireHe 发表于 2017-6-27 23:20
这个东西没有完全现成可以用的。都是根据实际需求调整的。
三天时间够了,学一学,google一下就差不多了 ...

你给个样本我改改也行啊,对一个大型的网站进行爬搜。。。。

出0入0汤圆

发表于 2017-6-27 23:39:35 | 显示全部楼层
python 入门就是爬虫。自己去搜索搜索

出0入24汤圆

发表于 2017-6-27 23:52:38 | 显示全部楼层
https://item.jd.com/11963485.html  
用Python写网络爬虫
全面剖析爬虫技术的实现原理 利用Python的强大功能从任意网站爬取数据
[澳] 理查德·劳森(Richard Lawson) 著;李斌 译
累计评价
2.6万+
京 东 价:
¥37.40 [8.4折] [定价:¥45.00] (降价通知)
促销信息:
满额返券购买自营图书满59元返文具180元东券 详情 >>

出0入0汤圆

发表于 2017-6-28 00:25:30 | 显示全部楼层
楼主爬完没?》成功幸存可以抽空惠泽下苍生?
头像被屏蔽

出0入0汤圆

发表于 2017-6-28 01:42:46 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽

出0入22汤圆

发表于 2017-6-28 08:19:04 来自手机 | 显示全部楼层
楼主河南的?

出0入0汤圆

发表于 2017-6-28 08:26:27 | 显示全部楼层
楼主,还有两天

出0入13汤圆

发表于 2017-6-28 08:31:59 | 显示全部楼层
莫大推荐的火车头数据采集器搜了下,好像很强大的样子

出0入0汤圆

发表于 2017-6-28 09:13:31 | 显示全部楼层
Python3.X 爬虫实战(并发爬取)
http://blog.csdn.net/yanbober/article/details/73368769
可以参考下!

出0入0汤圆

发表于 2017-6-28 09:15:53 | 显示全部楼层
不开玩笑 用Python 3天还真差不多

出0入0汤圆

发表于 2017-6-28 09:16:07 | 显示全部楼层
单个网站解决方案太多了,实在不行,直接外包吧

出0入0汤圆

发表于 2017-6-28 09:36:23 来自手机 | 显示全部楼层
有爬虫框架的,改一下规则就行了

出0入0汤圆

发表于 2017-6-28 09:46:10 | 显示全部楼层
固定的网站,三天现写真的都够,那么多开源的,挑个自己熟悉的语言。
老大说的采集器也是个路子。

出0入0汤圆

发表于 2017-6-28 13:43:27 来自手机 | 显示全部楼层
第一念头想到的也是python
头像被屏蔽

出0入0汤圆

发表于 2017-6-28 13:47:32 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽

出0入0汤圆

发表于 2017-6-28 14:23:49 | 显示全部楼层
加班弄吧,别有啥怨言。

出0入0汤圆

发表于 2017-6-28 16:18:15 | 显示全部楼层
ySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,有界面配置也就三个小时就可以开爬了

出0入0汤圆

 楼主| 发表于 2017-6-28 18:03:59 | 显示全部楼层

是的。来郑州了可以找我玩。

出0入0汤圆

 楼主| 发表于 2017-6-28 18:05:10 | 显示全部楼层
armok 发表于 2017-6-28 13:47
楼主不用折腾了。

我说的火车头,是权威的推荐,没有比它更好的。

谢谢,老板要的是自己的代码程序,不是找现成的爬虫工具。

出20入186汤圆

发表于 2017-6-28 20:39:17 | 显示全部楼层
外包啊,发个网址我看看,
头像被屏蔽

出0入0汤圆

发表于 2017-6-28 21:04:11 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽

出0入0汤圆

发表于 2017-6-29 18:06:32 | 显示全部楼层
armok 发表于 2017-6-28 21:04
你以为火车头只是一个工具?

你需要自己编写捕捉表达式的。

火车头是国内的最好的采集软件了

出0入0汤圆

发表于 2017-6-30 03:32:56 来自手机 | 显示全部楼层
:)没想到路过这个帖子也有如此收货,感谢楼上的

出0入0汤圆

发表于 2017-6-30 07:46:29 | 显示全部楼层
搜到了“火车采集器”,不明觉厉。

出0入8汤圆

发表于 2017-6-30 08:18:26 | 显示全部楼层
armok 发表于 2017-6-28 13:47
楼主不用折腾了。

我说的火车头,是权威的推荐,没有比它更好的。

火车头采集确实好用
一年前我用火车头直接把宜家家居所有的商品信息每天导出一次,关注哪些产品销量比较好。

出60入0汤圆

发表于 2017-6-30 08:33:16 | 显示全部楼层
看看最后的结果

出0入0汤圆

发表于 2017-6-30 08:57:09 | 显示全部楼层
楼主 已经 三天了  结果  怎么样了    来关注下进度  

出10入12汤圆

发表于 2017-6-30 15:02:58 来自手机 | 显示全部楼层
三天了 坐等楼主消息

出0入0汤圆

发表于 2017-6-30 15:05:18 | 显示全部楼层
yansw 发表于 2017-6-30 08:18
火车头采集确实好用
一年前我用火车头直接把宜家家居所有的商品信息每天导出一次,关注哪些产品销量比较 ...

大神,如何做这个功能??

出0入0汤圆

发表于 2017-6-30 17:24:46 | 显示全部楼层
网上有现成的可以做二次开发

出0入0汤圆

发表于 2017-6-30 17:32:35 来自手机 | 显示全部楼层
楼主正在工作中,大家稍安勿躁

出0入8汤圆

发表于 2017-6-30 18:49:08 | 显示全部楼层
gujiamao_love 发表于 2017-6-30 15:05
大神,如何做这个功能??

宜家家居网站可以实时显示当前库存,只要每台早晨宜家家居上班前把所有产品的库存量先跑一遍保存,然后晚上下班后再跑一遍,做个差就知道每天的销售量了。

有些货物会突然增加库存,一般就是进货了,不过每次进货量都很大,能明显看出来。

出0入0汤圆

发表于 2017-7-1 05:28:03 来自手机 | 显示全部楼层
楼主爬出来了吗?

出0入0汤圆

发表于 2017-7-1 06:41:28 来自手机 | 显示全部楼层
huangqi412 发表于 2017-6-30 17:24
网上有现成的可以做二次开发

留个种呗?

出0入0汤圆

发表于 2017-7-1 10:14:12 | 显示全部楼层
import scrapy
or
import requests
祝好运, 不过我没玩过哈哈

出0入0汤圆

发表于 2017-7-1 18:19:48 | 显示全部楼层
爬进容易爬出难吧.......

出10入95汤圆

发表于 2017-11-11 09:22:30 来自手机 | 显示全部楼层
多谢楼上各位!

出0入0汤圆

发表于 2017-11-18 09:31:04 | 显示全部楼层
长知识了。

出0入0汤圆

发表于 2019-9-25 22:43:28 | 显示全部楼层
涨知识了,查查火车头去

出0入0汤圆

发表于 2019-9-25 22:47:48 | 显示全部楼层
这么老的帖子
不过还是长见识了

另外,现在满天飞的python教程,一般都是拿爬虫开始练手的

出0入0汤圆

发表于 2019-9-26 06:33:11 来自手机 | 显示全部楼层
长见识了  

出10入18汤圆

发表于 2019-9-26 09:10:29 来自手机 | 显示全部楼层
一天学会从1024遍历小姐姐

出0入0汤圆

发表于 2019-9-26 09:47:14 | 显示全部楼层
qtechzdh 发表于 2019-9-26 09:10
一天学会从1024遍历小姐姐

这个是极好的

出0入0汤圆

发表于 2019-9-26 11:07:27 | 显示全部楼层
你叫这个老板给钱外包就好了。如果部肯给的话,还是尽快离职为妙。

出0入0汤圆

发表于 2019-9-26 12:14:13 | 显示全部楼层
lz离职了吗?

出0入0汤圆

发表于 2019-9-26 16:42:23 | 显示全部楼层
楼主什么情况的?

出0入4汤圆

发表于 2019-9-26 17:39:50 | 显示全部楼层
http://www.houyicaiji.com/

后羿采集器,楼主没辞职的话可以了解一下

出0入0汤圆

发表于 2020-2-10 19:56:12 | 显示全部楼层
瞅瞅                 
回帖提示: 反政府言论将被立即封锁ID 在按“提交”前,请自问一下:我这样表达会给举报吗,会给自己惹麻烦吗? 另外:尽量不要使用Mark、顶等没有意义的回复。不得大量使用大字体和彩色字。【本论坛不允许直接上传手机拍摄图片,浪费大家下载带宽和论坛服务器空间,请压缩后(图片小于1兆)才上传。压缩方法可以在微信里面发给自己(不要勾选“原图),然后下载,就能得到压缩后的图片。注意:要连续压缩2次才能满足要求!!】。另外,手机版只能上传图片,要上传附件需要切换到电脑版(不需要使用电脑,手机上切换到电脑版就行,页面底部)。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|amobbs.com 阿莫电子技术论坛 ( 粤ICP备2022115958号, 版权所有:东莞阿莫电子贸易商行 创办于2004年 (公安交互式论坛备案:44190002001997 ) )

GMT+8, 2024-7-23 10:40

© Since 2004 www.amobbs.com, 原www.ourdev.cn, 原www.ouravr.com

快速回复 返回顶部 返回列表