月薪1w的程序员爬淘宝被判3年写爬虫别碰这3条！

作者: 麦叔编程分类: 野生技能协会发布时间: 2021-06-14 11:27:58 浏览:279445 次

Kobe_Helicopter:
你爬淘宝违法淘宝爬你隐私，不违法[doge]

【回复】啥你都敢说，你很危险[doge]
【回复】软件已经经过你的同意了，第一次打开软件时候，他会问你是否同意此协议
【回复】回复 @软软的好开森- :而且安卓的手机一般是你不同意条款你还没法用
哀裂:
课代表 1.不要碰敏感信息（如公民敏感信息） 2.不要搞太大（不超三分一） 3.不要断人财路（大家都是要赚钱的）

【回复】另外国内很多做爬虫的能活下去还有一大隐藏原因，你爬的对象看起来在不让你爬，其实希望你来爬，dau，上市，懂得都懂[doge]
【回复】回复 @千里客5933 :淘宝的总流量怕是无限大[doge][妙啊]
小明3731:
资产千亿的马云使用你隐私可以，月入1W程序员使用不行。懂了吗？做程序员不可以为所欲为，但有钱可以。

【回复】杀一个人你是杀人犯杀一百个人你是魔鬼杀一万个人你是枭雄
【回复】不，程序员也可以，只是技术要求有些高而已[吃瓜][滑稽]
【回复】就这破社会还想动摇我价值观？呸
Aka1酱:
在很久以前，爬虫确实不需要多高的水平，模拟h5协议就能爬。随着技术的升级，h5增加了加固保护代码，爬虫从python直接爬转变成了逆向+协议模拟的方式。近几年，随着AI广泛应用于风控领域，设备指纹，人机识别在反爬领域被广泛使用，爬虫被迫变成了逆向+改机+过风控三步走策略。抓数据不难，难的是稳定可持续的抓数据。ps：这几乎不可能

【回复】大佬们请教个问题[滑稽]我前几天爬一个图片站，奇怪的是爬下来的图片都是空文件，但是文件路径又是完全正确的。只有当你用浏览器打开一张图片后(缓存到本地)，爬虫才能把图片爬下来，否则全是空文件。我觉得这个问题很神奇，但是不知道为啥这样，因为get的图片文件的路径是没任何问题的。所以这是怎么一回事・_・?[疑惑][疑惑]
【回复】回复 @极限学习机ELM :Selenium 效率太低了，而且现在人机检测用的越来越多了
靈滅cc:
这是淘宝自身存在的问题，主要是用户不懂这类技术。不然一群用户直接可以提出问题，以泄露隐私为由要求赔偿

【回复】一个个告根本不现实。国内公司利用诉讼成本有一手的，国内又不让集体诉讼
【回复】回复 @合体期修者 :首先这种是有授权才算参加，而国外是无授权默认参加。其次即使是组建起了这种松散的组织，对方照样可以用法律成本轻松弄你，最简单的，拖嘛。
【回复】回复 @合体期修者 :xs,裁判都有他的人,根本打不赢
xqs42b:
爬虫玩的好，牢房进的早。数据玩的流，牢饭吃个够。

【回复】比较扯淡。最大的爬虫公司，是这些公司本身，到处偷窃用户隐私信息。
【回复】就是啊，我说个话，就给我推送商品了，这不是录音吗
【回复】我爬淘宝是爬虫，淘宝爬我是大数据[tv_白眼]
NGlNX:
这个应该不仅仅是个狭义的爬虫了，批量拿用户id和对应手机号，接口越权，这种批量拿到用户信息的漏洞放我们这都能定成高风险了。（存储这些数据可能已经违法了，不知这老板拿到数据之后有没有买卖，我猜有）标题让我还以为批量拿了淘宝商品的信息就给判了[妙啊]

【回复】回复 @NGlNX :出现了！传说中的扫地僧！[脱单doge]
【回复】回复 @知道了猫爷 :我扫地的
【回复】商品信息是公开的吧，你做个监测记录价格褥羊毛没多大事
墨默無文:
淘宝自己都是个b子，立个牌坊就开始举报其他b子了。我呸！

【回复】假货起家，后又打击假货，吃假货的饭砸假货的锅[微笑]
【回复】假货起家，流氓推广，以前桌面老是会出现爱淘宝啥的图标，浏览器首页劫持，即使现在，一天好几个电话天猫客服播放提前录好的618推广语音。够恶心的。阿里巴巴在我眼里就是过剩的美元倾销的结果，包括美团也是，美元倾销，价格战抢市场，没啥本事。
水清镜明:
那些大公司爬别人没事，别人爬它们就有事

【回复】爬虫只要合规也是没事的，不合规大厂的也会出事的。之前51信用卡进去的一堆。一般大厂反而对爬虫没这么大需求，因为自己收集的数据就够多了。小厂没流量没数据就比较依赖爬虫了。
【回复】爬虫得符合规范的搞，也不能搞太大，不合规的爬，大公司也得吃诉讼[笑哭]
【回复】回复 @天天好运来拉 :百度也被罚过的[doge]
想做游戏的人:
做爬虫主要看个人的思想道德水平,爬来的信息或数据如何使用隐藏自己的能力,保护自己遵守好这两点就行了,robot是给君子看的,直接拼技术就行了,君子?

南无禅:
哇3年，和无证醉驾撞死人逃逸一样的刑期

【回复】考完科一才知道，一条人命只值三年[tv_惊吓]
【回复】那个是谅解了吧，不然7年起步
【回复】回复 @蛋宝睡不醒OuO :逃逸致人死亡才是七年
天狗吃菊花月饼:
问题来了，之前pdd还爬取员工脉脉上的发言

cagescott:
它可以用法律保护它盗窃用户信息的行为，也可以用法律保护自己的盗窃成果，可以说很zb了

【回复】这是个屁资本的原因啊，自己再想想吧
【回复】回复 @靖远高速巡洋舰 :确实不用爬敏感信息，直接从自己数据库里拿嘛[doge]也没法律规定必须要什么人来管理这些敏感数据，这些敏感信息也不知道经过多少人的手，出了事是个人问题，也不狠罚大公司的这种行为，你说流不流氓？
【回复】自己犯错，就别赖别人了，大公司根本不依赖爬虫搞敏感信息[笑哭]
勇气是人类最大的赞歌:
然而协议里面很多都不让你爬，像b站，全是disallow[大哭]

【回复】我们学校老师上课的时候说了句B站是个好网站，好爬[抠鼻]
【回复】b站不看协议随便爬，还有大佬把api给写成md文档
【回复】回复 @时间旅行者长门有希 :那种不返回json的才难受，还需要正则匹配[微笑]
uitb:
这个可以说活该，不该碰的东西不要碰，收集手机号码，还直接上10亿+[无语][无语][无语]

【回复】其实你刚注册一个手机号，下一秒就被卖了
【回复】回复 @柴郡兔啊 :我就是，点名电信
【回复】看完之后其实挺懵的。手机号这种东西都能放到能正常爬到的地方吗[辣眼睛] 对爬虫技术理解不多，但我觉得这种敏感信息怎么说都不应该在明面上吧
麦叔编程:
加入爬虫交流群，可以加微信maishu1024，备注“爬虫交流”。通过可能有点慢，请耐心等待，谢谢。

【回复】回复 @黑瞳魔龙王 :[妙啊]
【回复】回复 @若鬼嫌 :看新的置顶评论
谢耳朵KK:
总结一下，就是可以爬淘宝数据，但是不可以利用他的数据作商业行为

【回复】就是自己爬下来薅个羊毛的可以，但是把羊毛卖给别人就不行了[妙啊]
绀青森林:
要登录的网站从来不爬每爬一次延迟几秒从来不用多线程 [doge]

【回复】回复 @贪贪小萨 :我以前遇到个网站，有x-forwarded-for漏洞，我直接伪装成百度ip地址爬
【回复】间隔5秒，前两天才被封了两次IP[笑哭]，吓得赶紧找代理了
【回复】回复 @贪贪小萨 :不能注入，只是能伪造ip
账号已注销:
营收34万元，程序员一月一万，2018年到2020年两年，确实没怎么盈利

【回复】两年就写了一个爬虫[奸笑]
【回复】回复 @咕咕溜达鸡 :太惨了，赔钱还坐牢