对大多数网络管理员来说,spider是如何抓录的,这也是一些seoer日常工作的重点,但也不是所有用户都知道。笔者今日收到客户反馈信息,称所有更新内容均为原创内容,但抓路速度很慢,甚至更新内容一、二天内都无收益,三、四天后将有部分内容收录,但不到35%。
为什么这样的情况会发生呢?
爬行器根据相应的策略将网页内容抓回搜索引擎,之后网站的排名就会出现。
在此过程中被抽取的内容将被分掉,将所有停止词剥离,然后与在线上现有的内容进行对比,看看是否有重复性,如果重复性较高且连贯地重复,就被认为是正确的。
以后会把重复页面去掉,以后蜘蛛会自己决定对原内容进行收录,之后也会有用户的索引。
正如上面提到的这个案例中的这个用户不是一个例子,他没有专注于倒排索引,在这个关键字的后期阶段对关键词解析和文章内容解析很重要。在搜索引擎完成了相关内容搜索后,如果是原创内容自然会被收录,但是收录后的排名也不是固定不变的。
后来,小编询问了这个用户从网上更新的哪一篇原创文章,该用户表示,所更新的原创文章是直接通过国外相关内容翻译后获得的内容,而且经过原创工具的检验,原创度非常高。
而这正是问题的症结所在,用户虽然对内容进行了更新,但机械翻译的国外文章当前的搜索引擎机制中,对于这类内容,由于其内容缺乏连贯性,而且其内容与网站的契合度较低。
而在Seo优化过程中,内页排名一直偏低的原因,是因为这个用户没有注意到倒排索引问题,内页排名如何至关重要,直接影响了网站的引流效果,如果一个站点有多个网页排名较高,那么在多个关键词搜索中都能获得前5页的位置,从而带来更高的流量。倒排索引过程中,蜘蛛会对包含的内容进行质量对比,然后对该页面的内容进行排序,这个过程直接影响到内页排名的高低。