搜索
bottom↓
回复: 5
打印 上一主题 下一主题

为防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎

[复制链接]

出16390入6836汤圆

跳转到指定楼层
1
发表于 6 小时前 来自手机 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
【动真格了!为防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎!-哔哩哔哩】 https://b23.tv/sFjZcky

自日前开始,百度百科正式屏蔽了谷歌和必应等大多数搜索引擎,预计是为了阻止这些搜索引擎和其它爬虫,未经授权抓取百度百科的内容用于训练AI。

而根据百度百科的robots.txt文件显示,目前仅有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数几个搜索引擎被允许抓取其内容。

至于谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其它一切搜索引擎爬虫,均被明确禁止抓取百度百科的内容。

此外,虽然360搜索没有在封禁列表中单独列出,但百度百科的策略是禁止一切非白名单爬虫抓取,所以360搜索和其它搜索引擎也都是被屏蔽的。

不过话说回来,百度百科这种做法其实也只是防君子不防小人,肯定还是有很多爬虫会通过各种方式继续抓取内容然后拿去训练AI。

阿莫论坛20周年了!感谢大家的支持与爱护!!

曾经有一段真挚的爱情摆在我的面前,我没有珍惜,现在想起来,还好我没有珍惜……

出0入162汤圆

2
发表于 5 小时前 来自手机 | 只看该作者
抓取百毒内容训练 AI?不怕练坏了吗?

出0入33汤圆

3
发表于 5 小时前 来自手机 | 只看该作者
要是维基百科能访问,哪还有百度百科什么事儿。

出130入129汤圆

4
发表于 5 小时前 | 只看该作者
百度做了一件正确的事情啊,怕教坏别人

出0入0汤圆

5
发表于 4 小时前 来自手机 | 只看该作者
你们忘记了,提供负样本也是正确的数据

出0入29汤圆

6
发表于 2 小时前 | 只看该作者
使用百度百科训练AI,训练出来的AI直接推荐生病的外国佬去莆田医院
回帖提示: 反政府言论将被立即封锁ID 在按“提交”前,请自问一下:我这样表达会给举报吗,会给自己惹麻烦吗? 另外:尽量不要使用Mark、顶等没有意义的回复。不得大量使用大字体和彩色字。【本论坛不允许直接上传手机拍摄图片,浪费大家下载带宽和论坛服务器空间,请压缩后(图片小于1兆)才上传。压缩方法可以在微信里面发给自己(不要勾选“原图),然后下载,就能得到压缩后的图片。注意:要连续压缩2次才能满足要求!!】。另外,手机版只能上传图片,要上传附件需要切换到电脑版(不需要使用电脑,手机上切换到电脑版就行,页面底部)。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|amobbs.com 阿莫电子技术论坛 ( 粤ICP备2022115958号, 版权所有:东莞阿莫电子贸易商行 创办于2004年 (公安交互式论坛备案:44190002001997 ) )

GMT+8, 2024-8-27 13:07

© Since 2004 www.amobbs.com, 原www.ourdev.cn, 原www.ouravr.com

快速回复 返回顶部 返回列表