你的网站内容被用于AI训练了吗?你愿意吗?

最近几个月不管SEO行业还是整个科技行业,最热门的话题无疑是人工智能。

说实话,过去20多年来,我一直没觉得SEO技术有什么根本变化。虽然搜索引擎们每天更新算法,SEO们探索各种技巧,新名词层出不穷,这个战法,那个黑科技……其实呢,真没什么变化,无非是:创作好的内容,让蜘蛛能抓到,让用户能正常访问,然后,就没了。

自从ChatGPT出现以后,我第一次感觉可能要有变化了。我从来没有像现在这样觉得,SEO可能会有不同的做法了。

所以,现在能引起写帖子冲动的只有AI了。

上篇讨论AI是否会消灭SEO的帖子里提到过,Google测试中的生成式AI没有给出内容出处,也就不会给其他网站带来流量,那么站长们还不得抗议?还能让Google蜘蛛来抓网站内容?我辛辛苦苦创作内容,让蜘蛛免费来抓,训练出AI,回答用户问题时没有链接,没有出处,不会给网站带来任何好处,我图什么呀?如果有那么一天,我反正直接禁止Google蜘蛛来抓了。

那么,现在你的网站内容已经被用于AI训练了吗?这个不太容易确切知道,因为生成式AI的回答不是伪原创,不是拼接,是在学习大量数据后AI自己写的原创。

Bing还好,会标出部分出处,被标的网站显然被用于训练了。Google有没有用呢?

前两天华盛顿邮报发了一篇文章:“Inside the secret list of websites that make AI like ChatGPT sound smart“ – ”那些使ChatGPT之类AI看起来挺聪明的网站们“。文章内嵌了一个小功能,可以查某个网站是否被Google用于AI训练,以及用的比例。

AI们训练的数据是海量的,来源也挺多,出版的书籍,各种数据库,wiki,普通网站肯定也是其中一部分。C4是Google训练AI使用的一个网站数据集,里面有一千五百万个网站。华盛顿邮报分析了每个网站出现的token次数,token越多,大致上被用于训练的数据越多。token我不确定该怎么翻译,“字符串”?反正指的是一小段文字,比如一个词或一个短语。

C4不是Google用于AI训练的所有网站,所以里面没有的网站,不一定就没被用于训练。比如查一下zhihu.com,居然一个token都没有,这不科学,我无法相信知乎的内容没有被用于训练。

已经有人用这个小工具统计出被Google用于训练的token数和占比,Google专利第一,wikipedia第二,scribd第三:

出于好奇和虚荣心,肯定要查一下自己博客:

被用了,280个token。好吧,我也不知道是该高兴还是难过。有点欣慰是肯定的,毕竟,连联合早报都只有19个token:

但短暂的虚荣得到满足之后,接下来就会想,我真的愿意我的内容被Google用于AI训练吗 – 在得不到任何好处的情况下?

各位可以查一下自己的网站有没有被用?用了的话,你心甘情愿吗?

作者: Zac
版权属于: SEO每天一贴
版权所有。转载时必须以链接形式注明作者和原始出处及本声明。



47 条评论 “你的网站内容被用于AI训练了吗?你愿意吗?

  1. 没有被引用,估计个人日记类博客被引用的内容不会多吧。

    从站长的角度来说,国内搜索引擎,我现在更看好Bing,新版的Bing开始显示原网站的url了。

  2. ChatGPT可能不会完全取代传统的搜索引擎,但它一定会作为一项内容工具长期存在于多个经验重复性行业,某些行业永远都得需要人的创造力

  3. 个人感觉ChatGPD暂时不会取代搜索引擎,搜索引擎结果就跟人一样,需要多样性,并且某些专业领域的准确性和完整性是目前AI实现不到的。搜索引擎可以展示视频,图片,文字等多样性和完整性的结果。

  4. 搜索引擎服务商掌握数据后用来训练AI,然后用AI生成内容。最后AI还和AI之间互动交流。刚看到有新闻说AI与AI之间像知乎那样问答聊天聊得很Hi

  5. 虽然我的网站不怎么样,但如果真的这样免费被用,肯定是不愿意的。不过力量不对等,小网站主的声音能被听到吗?结果只能是网站越来越少,AI拿什么去训练呢

  6. 现在有些垃圾站,用CHATGPT技术去自动生成数据,但估计很快谷歌等也会有反制手段。
    在工业互联网上,AI的应用场景也越来越多,质检、安防等等

  7. 谁的内容会愿意给搜索引擎用而不标明出处啊?在AI来临之前,谷歌的OneBox感觉已经截取了相当一部分流量了。如果真能在搜索结果页看到想要的信息,即使标明了出处,也很少有人会愿意去访问出处网站吧。

  8. 生成式AI的出现,对与简单的重复劳动或者简单的脑力劳动者来说,威胁还是存在的。毕竟它不是复制,它是被投喂数据后,自动生成的原创。有点可怕的地方是,它每天都被投喂海量的数据,在人们还没反应过来的时候,数据已经被抓取完成入库。

  9. 我不愿意,训练的越多,证明AI能生产出更多和我网站同等价值的内容,又不付我钱,等于是白嫖

  10. AI已经很强大了,我觉得你说的AI训练有点类似Google的精选摘要,就是搜索引擎从网站提取某些跟搜索关键词相关的优质内容。

  11. 人工智能的发展确实在某些领域取得了重大进展,但目前还没有证据表明人工智能能够完全取代人类。人工智能在某些特定任务上可能比人类更高效和准确,但在其他方面仍然存在局限性。人类具有复杂的情感、创造力和道德判断等能力,这些是目前人工智能无法完全复制的。因此,人工智能更多地被视为人类的辅助工具,可以帮助人类更高效地完成任务,而不是取代人类。

  12. 百度AI训练的数据大部分来源于高权重的网站,特别是百度百科。现在做SEO,企业站获取自然流量少得可怜。食之无味弃之可惜。

  13. 如果训练了补显示出处,肯定是不愿意,真的到了那么一天,到时候禁止谷歌爬取还有效么?

  14. 这不是接受不接受的问题,因为只要你的东西是数码格式或者说可以转化成数码格式并发布到网络上,那你实际上很难去主动的防止自己的作品被拿走。

  15. 很多人还在研究术,企业的本质不就是更多曝光?搜索的核心在权威,推荐的核心在用户,无论是哪种引擎,不都是为了曝光我们的品牌和产品?ai只会降本增效,好事,只要哪个平台能爆单我都开心

  16. 这应该是个大趋势,互联网本身就是个开源的数据饲料场,被这些大厂拿来饲养自己的AI工具很正常,无非是这些大厂饲养成自己的AI后愿不愿公开个tips:吃了哪家饲料场的料

  17. 对个人站长并不是什么好事,越来越多的活用AI能完成,大家也就慢慢弃用搜索引擎,从而个人站长无法获得收益,也就不再创造内容。

留个言呗:

您的邮箱不会被显示在页面上。标有*的是必填项。