当前位置:100EC>媒体评论>陈礼腾:互联网公司利用爬虫技术抓取数据屡见不鲜
陈礼腾:互联网公司利用爬虫技术抓取数据屡见不鲜
发布时间:2018年10月30日 09:13:06

(网经社讯)摘要:近日,电子商务研究中心生活服务电商分析师陈礼腾在接受《中国青年报》采访时表示,互联网公司利用爬虫技术,从其他平台抓取数据的行为很常见,类似的案例在行业中屡见不鲜,“诸如58同城抄袭韩国招聘网站、大众点评抄袭小红书等。”从其他平台抓数据是为了制造流量很大的假象,既给用户看、商家看,更是给投资人看。

以下是报道原文全文:《数据造假背后的“生意经”》

最近,旅游社区平台马蜂窝遭遇风波。这家以用户分享旅行攻略起家、主打UGC(用户生产内容)的平台,被曝点评内容抄袭、造假。

10月20日,一家媒体发文,质疑马蜂窝平台上点评、问答等数据抄袭、造假。由此,双方你来我往已“战了几回合”,一方表示证据确凿,一方认为“明显抹黑”。10月23日,马蜂窝联合创始人兼CEO陈罡在北京接受媒体采访时表示,马蜂窝认真进行了自查,“核查结果显示,马蜂窝在餐饮等点评数据方面存在部分问题,但远没有外界所表述的那么夸大。马蜂窝已开始对相关问题进行整改,并重新梳理工作流程,堵住漏洞。”同一天,马蜂窝副总裁于卓在澳门出席活动表示,此次事件不会影响公司正常运营,希望未来两三年内完成IPO(首次公开募股)。

戏剧性的是,那些据称被该平台“抄袭”了数据的企业却一言不发,记者就此事联系相关企业,都表示“不适合这时候发声”。

“行业中如果大家都这样做的话,就变成一个潜规则,没人去讲这个事,这个问题就大了。”中国政法大学传播法研究中心副主任朱巍说,如果该事件能让行业中的企业提高自律,那也是一件好事。只是目前,如何治理行业中的数据抄袭、搬运、造假等问题仍没有答案。

数据造假是“多赢”?

互联网行业中的数据造假早已不是什么新鲜事。

2018年7月,小红书(一家分享生活平台)发微博称,有大量用户反映,大众点评疑冒用小红书用户名称账号,批量建立虚假账号,抄袭及搬运用户在小红书发布的原创笔记。

2014年,陈罡曾在微博上公开炮轰在线旅行网站去哪儿网花钱雇人为酒店写“正面评价”,并认为只有真实评价才能帮到用户,这是他们行业生存的根基。

时隔四年,当初被其认为动摇生存根基的的火烧到了陈罡自己身上。

电子商务研究中心生活服务电商分析师陈礼腾表示,互联网公司利用爬虫技术,从其他平台抓取数据的行为很常见,类似的案例在行业中屡见不鲜,“诸如58同城抄袭韩国招聘网站、大众点评抄袭小红书等。”从其他平台抓数据是为了制造流量很大的假象,既给用户看、商家看,更是给投资人看。

电子商务研究中心主任曹磊进一步补充,他们做的研究显示,“爬虫”抓取、抄袭和造假已经成为很多平台屡试不爽的一大“捷径”,尤其是处于初创期的中小平台,很容易选择评论造假以吸引融资或引入流量。

几位专家在分析中,都谈到了企业数据造假和投融资的关系。远望资本创始合伙人田鸿飞承认了这一点,“大家都刷你不刷,那投资人可能会觉得你的数据不好。”田鸿飞说,数据是判断一家企业价值很重要的指标,如果一家企业把数据刷得很好看,另一家拿出了真实的比较“难看”的数据,投资人的第一反应就是数据“难看”的企业做得不够好,而不会去验证真实性。“所以从这个角度讲,创业者(数据造假)有很强的动机。”

远瞻资本合伙人秦岗对于企业“数据造假”持比较谨慎的态度。他认为,从具体情况出发,这得分作假程度的轻重。如果是完全不好的产品又把数据刷得很高那肯定不对,但如果产品不错,市场上如果普遍又都在刷数据,那企业如果是较少量数据的行为,也可以理解。“包括企业资金的使用程度,企业如果花了大量资金来刷单的话,我们不会继续跟踪下去,但是假如企业更多的精力花到产品打磨上面,我们还是会继续关注。”

此外,从产业链的角度,“数据造假是种多赢的行为。”田鸿飞表示,对于创业公司来说,抓别人的数据或是找“水军”去造数据很划算,骗了用户也能骗投资人,投入产出比低;对于部分投资人来说,被投企业数据好看了也方便后期的投资进入接盘;“水军”商家们也能从中牟利。

在某购物网站上,输入“点评”“推广”等关键词,就会跳出几十家刷点评的店铺,以某旅游平台的刷单为例,商品“代写游记攻略推广、维护,目的地客栈推广、点评”的标价为10元。此前,有媒体采访相关店铺商家,商家给出的价格就是“游记一篇500元,阅读量保1万以上,点评20元,攻略点赞一次0.2元,分享一次0.25元。”

多方共赢,这其中利益受损的是用户和最终的接盘者。而在互联网平台上,用户数据重叠十分正常,用户也不会追究这些,这种情况下很少会出现纠纷。

“最好的办法就是重罚”

在数据造假环节中,企业融资的考量成了其中关键一环,田鸿飞对此颇感无奈,“投资人都是想躺着赚钱的,我们当然不希望被骗,企业提供的数据越真实越好,这样投资人也不至于和创业者合谋去骗下一轮的投资人。”

田鸿飞说,数据造假的存在给投资方也造成了很大的负担,对于一些金额较大的投资,投资方对数据都会很谨慎,一般都会聘请第三方机构去做数据验证,这部分成本也要几十万元,还要大量的时间。

秦岗举例,远瞻曾经为了一个项目,几位合伙人一条一条去翻产品的评论,然后打电话给一些用户调查,这是严谨的调研流程,费时费力。他希望行业能够自律,这对于整个生态来说都是好事,也不会出现“劣币驱逐良币”的事情。

“最好的办法就是重罚。”DCCI互联网研究院院长、互联网专家刘兴亮对于企业数据抄袭、造假的行为态度很鲜明,他觉得在这种利益纠葛较为复杂的生态下,光靠行业自律是不可能解决问题的,就得靠法律去严惩。

目前,类似的严惩案例已有不少。2016年大众点评诉百度地图不正当竞争案,是一起典型的因“搬运”点评信息引发的诉讼。最后法院判决百度公司停止不正当竞争行为,赔偿大众点评网的经营者汉涛公司经济损失300万元及为制止不正当竞争行为所支付的合理费用23万元。

2017年“奋斗在韩国”网诉58同城不正当竞争案也是如此,最后法院判决58同城在“58同城”网站首页上刊登声明以消除影响,赔偿“奋斗在韩国”网运营者韩华公司经济损失600万元及合理开支共计601万元。

针对企业数据造假事件,朱巍撰文指出,对于以UGC内容为核心竞争力的机构来说,非法抓取他人内容是非常严重的不正当竞争行为,既损害被侵权人的合法权益,造成了公众认知的混同,也侵害了被抓取者的市场信赖度。

北京志霖律师事务所律师赵占领表示,刷用户点评信息这种行为直接违反了《反不正当竞争法》和《网络交易管理办法》的规定,属于一种不正当竞争行为,同时,也违反了即将从2019年开始实施的《电子商务法》第十七条的规定:“电子商务经营者应当全面、真实、准确、及时地披露商品或者服务信息,保障消费者的知情权和选择权。电子商务经营者不得以虚构交易、编造用户评价等方式进行虚假或者引人误解的商业宣传,欺骗、误导消费者。”

“不过对于数据抄袭、造假的行为,通常情况下确实比较难以取证,因为行为往往比较隐蔽。工商部门一般是因有人举报,并提供相应的证据或者线索而启动调查。”赵占领表示,如果受侵害的平台不准备主张自己的权利,法院也不能主动审理,事情也就不了了之了。(来源:中国青年报 文/张均斌)

网经社联合A股上市公司网盛生意宝(002095.SZ)推出消费品在线供应链金融解决方案。该产品具有按需提款、按天计息、随借随还、专款专用、循环信用贷、全线上流程操作等特点,解决消费品供应链核心企业及下游经销商/网店因库存及账期造成的流动性差“痛点”。》》合作联系

网经社“电数宝”电商大数据库(DATA.100EC.CN,注册免费体验全部)基于电商行业12年沉淀,包含100+上市公司、新三板公司数据,150+独角兽、200+千里马公司数据,4000+起投融资数据以及10万+互联网APP数据,全面覆盖“头部+腰部+长尾”电商,旨在通过数据可视化形式帮助了解电商行业,挖掘行业市场潜力,助力企业决策,做电商人研究、决策的“好参谋”。

【投诉曝光】 更多>

【版权声明】秉承互联网开放、包容的精神,网经社欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源网经社;同时,我们倡导尊重与保护知识产权,如发现本站文章存在版权问题,烦请将版权疑问、授权证明、版权证明、联系方式等,发邮件至NEWS@netsun.com,我们将第一时间核实、处理。

        平台名称
        平台回复率
        回复时效性
        用户满意度
        微信公众号
        微信二维码 打开微信“扫一扫”
        微信小程序
        小程序二维码 打开微信“扫一扫”