月薪1w的程序员 爬淘宝被判3年 写爬虫别碰这3条!

作者: 麦叔编程分类: 野生技能协会 发布时间: 2021-06-14 11:27:58 浏览:279445 次

月薪1w的程序员 爬淘宝被判3年 写爬虫别碰这3条!

Kobe_Helicopter:
你爬淘宝违法 淘宝爬你隐私,不违法[doge]

【回复】啥你都敢说,你很危险[doge]
【回复】软件已经经过你的同意了,第一次打开软件时候,他会问你是否同意此协议
【回复】回复 @软软的好开森- :而且安卓的手机一般是你不同意条款你还没法用
哀裂:
课代表 1.不要碰敏感信息(如公民敏感信息) 2.不要搞太大(不超三分一) 3.不要断人财路(大家都是要赚钱的)

【回复】另外国内很多做爬虫的能活下去还有一大隐藏原因,你爬的对象看起来在不让你爬,其实希望你来爬,dau,上市,懂得都懂[doge]
【回复】回复 @千里客5933 :淘宝的总流量怕是无限大[doge][妙啊]
小明3731:
资产千亿的马云使用你隐私可以, 月入1W程序员使用不行。 懂了吗? 做程序员不可以为所欲为, 但有钱可以。

【回复】杀一个人你是杀人犯 杀一百个人你是魔鬼 杀一万个人你是枭雄
【回复】不,程序员也可以,只是技术要求有些高而已[吃瓜][滑稽]
【回复】就这破社会还想动摇我价值观?呸
Aka1酱:
在很久以前,爬虫确实不需要多高的水平,模拟h5协议就能爬。随着技术的升级,h5增加了加固保护代码,爬虫从python直接爬转变成了逆向+协议模拟的方式。近几年,随着AI广泛应用于风控领域,设备指纹,人机识别在反爬领域被广泛使用,爬虫被迫变成了逆向+改机+过风控三步走策略。 抓数据不难,难的是稳定可持续的抓数据。ps:这几乎不可能

【回复】大佬们请教个问题[滑稽]我前几天爬一个图片站,奇怪的是爬下来的图片都是空文件,但是文件路径又是完全正确的。只有当你用浏览器打开一张图片后(缓存到本地),爬虫才能把图片爬下来,否则全是空文件。我觉得这个问题很神奇,但是不知道为啥这样,因为get的图片文件的路径是没任何问题的。 所以这是怎么一回事・_・?[疑惑][疑惑]
【回复】回复 @极限学习机ELM :Selenium 效率太低了,而且现在人机检测用的越来越多了
靈滅cc:
这是淘宝自身存在的问题,主要是用户不懂这类技术。不然一群用户直接可以提出问题,以泄露隐私为由要求赔偿

【回复】一个个告根本不现实。 国内公司利用诉讼成本有一手的,国内又不让集体诉讼
【回复】回复 @合体期修者 :首先这种是有授权才算参加,而国外是无授权默认参加。 其次即使是组建起了这种松散的组织,对方照样可以用法律成本轻松弄你,最简单的,拖嘛。
【回复】回复 @合体期修者 :xs,裁判都有他的人,根本打不赢
xqs42b:
爬虫玩的好,牢房进的早。数据玩的流,牢饭吃个够。

【回复】比较扯淡。最大的爬虫公司,是这些公司本身,到处偷窃用户隐私信息。
【回复】就是啊,我说个话,就给我推送商品了,这不是录音吗
【回复】我爬淘宝是爬虫,淘宝爬我是大数据[tv_白眼]
NGlNX:
这个应该不仅仅是个狭义的爬虫了,批量拿用户id和对应手机号,接口越权,这种批量拿到用户信息的漏洞放我们这都能定成高风险了。(存储这些数据可能已经违法了,不知这老板拿到数据之后有没有买卖,我猜有)标题让我还以为批量拿了淘宝商品的信息就给判了[妙啊]

【回复】回复 @NGlNX :出现了!传说中的扫地僧![脱单doge]
【回复】回复 @知道了猫爷 :我扫地的
【回复】商品信息是公开的吧,你做个监测记录价格褥羊毛没多大事
墨默無文:
淘宝自己都是个b子,立个牌坊就开始举报其他b子了。我呸!

【回复】假货起家,后又打击假货,吃假货的饭砸假货的锅[微笑]
【回复】假货起家,流氓推广,以前桌面老是会出现爱淘宝啥的图标,浏览器首页劫持,即使现在,一天好几个电话天猫客服播放提前录好的618推广语音。够恶心的。阿里巴巴在我眼里就是过剩的美元倾销的结果,包括美团也是,美元倾销,价格战抢市场,没啥本事。
水清镜明:
那些大公司爬别人没事,别人爬它们就有事

【回复】爬虫只要合规也是没事的,不合规大厂的也会出事的。之前51信用卡进去的一堆。一般大厂反而对爬虫没这么大需求,因为自己收集的数据就够多了。小厂没流量没数据就比较依赖爬虫了。
【回复】爬虫得符合规范的搞,也不能搞太大,不合规的爬,大公司也得吃诉讼[笑哭]
【回复】回复 @天天好运来拉 :百度也被罚过的[doge]
想做游戏的人:
做爬虫 主要看个人的思想道德水平,爬来的信息或数据如何使用 隐藏自己的能力,保护自己 遵守好这两点就行了,robot是给君子看的,直接拼技术就行了,君子?

南无禅:
哇3年,和无证醉驾撞死人逃逸一样的刑期

【回复】考完科一才知道,一条人命只值三年[tv_惊吓]
【回复】那个是谅解了吧,不然7年起步
【回复】回复 @蛋宝睡不醒OuO :逃逸致人死亡才是七年
天狗吃菊花月饼:
问题来了,之前pdd还爬取员工脉脉上的发言

cagescott:
它可以用法律保护它盗窃用户信息的行为,也可以用法律保护自己的盗窃成果,可以说很zb了

【回复】这是个屁资本的原因啊,自己再想想吧
【回复】回复 @靖远高速巡洋舰 :确实不用爬敏感信息,直接从自己数据库里拿嘛[doge]也没法律规定必须要什么人来管理这些敏感数据,这些敏感信息也不知道经过多少人的手,出了事是个人问题,也不狠罚大公司的这种行为,你说流不流氓?
【回复】自己犯错,就别赖别人了,大公司根本不依赖爬虫搞敏感信息[笑哭]
勇气是人类最大的赞歌:
然而协议里面很多都不让你爬,像b站,全是disallow[大哭]

【回复】我们学校老师上课的时候说了句B站是个好网站,好爬[抠鼻]
【回复】b站不看协议随便爬,还有大佬把api给写成md文档
【回复】回复 @时间旅行者长门有希 :那种不返回json的才难受,还需要正则匹配[微笑]
uitb:
这个可以说活该,不该碰的东西不要碰,收集手机号码,还直接上10亿+[无语][无语][无语]

【回复】其实你刚注册一个手机号,下一秒就被卖了
【回复】回复 @柴郡兔啊 :我就是,点名电信
【回复】看完之后其实挺懵的。手机号这种东西都能放到能正常爬到的地方吗[辣眼睛] 对爬虫技术理解不多,但我觉得这种敏感信息怎么说都不应该在明面上吧
麦叔编程:
加入爬虫交流群,可以加微信maishu1024,备注“爬虫交流”。通过可能有点慢,请耐心等待,谢谢。

【回复】回复 @黑瞳魔龙王 :[妙啊]
【回复】回复 @若鬼嫌 :看新的置顶评论
谢耳朵KK:
总结一下,就是可以爬淘宝数据,但是不可以利用他的数据作商业行为

【回复】就是自己爬下来薅个羊毛的可以,但是把羊毛卖给别人就不行了[妙啊]
绀青森林:
要登录的网站从来不爬 每爬一次延迟几秒 从来不用多线程 [doge]

【回复】回复 @贪贪小萨 :我以前遇到个网站,有x-forwarded-for漏洞,我直接伪装成百度ip地址爬
【回复】间隔5秒,前两天才被封了两次IP[笑哭],吓得赶紧找代理了
【回复】回复 @贪贪小萨 :不能注入,只是能伪造ip
账号已注销:
营收34万元,程序员一月一万,2018年到2020年两年,确实没怎么盈利

【回复】两年就写了一个爬虫[奸笑]
【回复】回复 @咕咕溜达鸡 :太惨了,赔钱还坐牢

PYTHON 程序员 爬虫 网络爬虫 PYTHON爬虫

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!

更多相关阅读