我们是怎么劫持了谷歌官方搜索引擎优化(SEO)入门指南的排名的

2023-04-13 09:57:07

Dan Sharp分享了一个案例,他所在的公司可以劫持谷歌官方搜索引擎优化(SEO)入门指南的排名。让我们看一下他们是如何操作的吧。



我想分享一个代理商最近的一个操作尝试,经操作,谷歌认为我们网站就是谷歌官方搜索引擎优化入门指南PDF的一个权威版本—并且把我们列到其“搜索引擎优化”目录下和数千个短语中。

我们在内部进行了测试,测试包括我们的SEO Spider(蜘蛛)软件和用户代理。这次特别的试验仅供娱乐,只是为了验证我们的发现,无意伤害他人,也不是为了赚钱谋取利益。目前,我们已经终止了试验并删除了相关内容。




背景

发现搜索引擎结果的一些奇怪现象后,我们事先和谷歌取得了联系。他们的SEO入门指南PDF在“SEO”和“谷歌SEO指导”等相关目录下,有些事情并不对劲……

@ JohnMu 你好,John,谷歌SEO入门指导并不在列表中或无法检索,该网址已被另一个网址取代。这一突出的问题是302s?Pic.twitter.com/i5M4VLFe9D

----- Dan Sharp(@screamingfrog)2016年11月7日

在搜索结果中,PDF入门指导出现在搜索结果列表里,也链接到其他上传PDF的各网址中,但是在谷歌自己的网站中却没有出现。所以,不知何原因,谷歌没有将自己的网页纳入列表中;反而是其他网站使用谷歌了相关内容。

以下是英国一些网站的排名情况。每一个网站都力图把其他搜索结果排挤出去,因为谷歌会根据搜索结果而改变所信任的权威版本。



我们决定调研一下为什么谷歌的网页检索不到,而其他网页却可以。我们注意到谷歌在搜索引擎优化入门指导中使用了302重定向功能,且集中在相互独立的域名中。

302重定向中,原始的URL在谷歌网页中可以检索到,但是目标URL在static.googleusercontent.com就检索不到。

然而这两种URL都没有检索到,并且都试图确认权威性,检索原始内容和URL。谷歌以前没有使用“noindex”,通过robots.txt没有拦截任何内容,其他内容可以检索,并且也没有和 canonicals、网页上的内容以及HTTP header内部有直接的冲突。

谷歌曾表明无论是302临时重定向还是301永久重定向,网页排名的结果都差不多,这其中真正起作用的是检索了什么样的URL,在搜索结果中又是什么样的URL。所以,理论上应该检索原始的URL和排名,但是这并不是重点。

因为每一种重定向都用相似的方法传递PageRank,Gary Illyes说301有助于规范化。

@ AndyNRodgers 重定向传送都是一样的,但是301有助于规范化@ JohnMu

---- GaryIllyes  ᕕ(ᐛ )ᕗ (@methode) 2016年8月5日

我们从以前的实验中知道,相同的内容可能被劫持,但通常由更权威的网站取代。 Google的SEO入门指南有大约2,100个链接根域名指向原始URL,另外重定向目标有485个(HTTP/HTTPS相结合的协议),所以这是一个可见度很高的强大网页。

入门指导也在Google.com上,且享有极高的声誉。最终目标还是要占据独立的域名。

很明显,Screaming Frog 并没有像谷歌那么权威,但是由于以上提到的问题,不少名不见经传的网站已经提前代替了他们。

试验:我们打算进行一次短期的试验,只把谷歌SEO入门指导上传到我们的域名。然后我们就通过谷歌搜索控制台提交并被收录,随之放置不管。

一周以后,我们发现我们已经劫持了谷歌自己的排名(由于我们的权威性更高,以前所有黑客都没有做到这一点),因为谷歌的算法似乎相信我们就是他本身内容的一部分。我们的URL出现在info: 和 cache:命令查询结果中。



我们已经劫持了黑客,也劫持了谷歌。



虽然我们是英国的网址,但是在美国,我们的“搜索引擎优化”从50名开外,一跃成为第四,“SEO”也进入了前十名。



在PDF排名中,“谷歌SEO”,“谷歌SEO指导”,“www goolgle com ”以及谷歌其他的关键词都是可见的了。



在美国和英国其他的PDF排名中,我们可以看到他们对SEMrush的喜爱(以下专门截屏展示美国的结果)



并且,Sistrix还强调了我们有意制造,突然冒出来的这个“新的”关键词。



谷歌站长工具记录了接近800k展现量的PDF,尤其近四天的情况。



我们在推特上公布以后,该实验得到了广泛关注。

因此在接下来的一段时间里,我们持续关注谷歌,看看他是否会改正索引、改变规范化和排名。48小时以后,我们注意到谷歌官方的搜索引擎优化指南开始出现在排名里,先前没有检索结果现在就能检索到了(同时出现在site:命令查询结果中)。



之后我们还发现谷歌给PDF原始的URL增加了一个HTTP canonical,以此帮助其被正确收录。



但是,我们的内容仍然在info:查询结果中出现,并且还有排名。这也就是说两个指南都在搜索结果中,并且我们的网址排名还在谷歌之上。



我们希望这件事情有所改变---谷歌官方作为权威排名而我们的网页退出排名。接下来五天里,我们的网页仍然和谷歌一起出现在搜索结果里,并且有着上千的访问量。之后我们的PDF就消失了,我们迅速地终止了此次试验。

反思

首先,我们没有推荐其他人乱七八糟的信息。这并不是一个可行的策略技巧来获得靠前的排名,这仅仅是一个与众不同的有趣的个案研究。我们很难就此进行总结,因为我们没办法确定是不是还有其他未知的可能影响操作的因素。

我们有不少理论和想法,在这里以三点做为总结。

1.并不(完全)与关302重定向有关

最初我们以为根本原因是302重定向,我们都知道谷歌坚信302重定向的使用没有什么问题。我们觉得文件托管方式难以脱开干系。

经过一段时间,我们发现URL另外一些怪异的现象(根据Accept-Language header提供的有价值的信息),并且在HTTPS中,规范化没有正确使用。

2.使用规范

使用canonicals规范来帮助提升收录是非常明智的。只要谷歌更新PDF的HTTP规范,将其改为一个单独的URL,就可以检索到。

使用crawler就可以爬取你的网站中缺失canonical的链接,也可以爬取 HTTP header中的canonical 的链接。

对PDF和文档来说,你可以很轻松的设置一个诸如HTTP canonical using .htaccess文件。

3.尽管发生几率不大,但是劫持还是有可能的

特定情况下,一个网页的排名会让内容完全一样的域名劫持,比如indexation出现问题,或是成为一个更专业的来源。大体来说可能性不大,但是,在原始来源排名这个问题上,谷歌还是需要做一些改进的。