探索搜索引擎蜘蛛是如何判断一个页面该不该收录
此文标题很长,是为了尽量跟别人已有的标题区分开来,让页面标题有一定的稀缺性。
搜索引擎收录网页有着他自己的一套算法,具体如何我们不得而知,到互联网上找答案也似乎都是人云亦云千篇一律。
知识无价,干货更是一字千金,想要踩在前人的肩膀上前行,似乎也是步履艰难。唯有自己前身不断探索才能满载前行。
为何此文很少讲述有关标题本身的内容,其实就是在自己摸索测试验证一个思路:即搜索同一个标题,正文部分出现陌生关键词是否符合所谓的原创算法中的原创一说。
其实也是一种另辟蹊径的思路,也就是说同样的标题要讲述的内容大相径庭。所可能出现的“陌生”关键词基本都是那些,通过这种‘自创’所谓的算法,然后通过复杂的运算,站在程序员的角度我认为要用代码去判断文章是否新颖有收录价值这个思路是可行的。
至今为止很少有关于这样的研究以及结果公布,近期这段时间都是在摸索影响收录的原因和因素,我是一个码农,文采有限甚至通篇像是胡言乱语,更不会之乎者也那套。
写到这里,我突然很疑惑,蜘蛛会对文章内容以及文采感兴趣吗?
想到这里,我就联想到在给孩子辅导作文的时候,我给孩子灌输的理念(要写好一篇作文,要多运用好词好句、古诗词以及名言名句歇后语或成语,让一篇作文显得更有文采【让老师一看潜意识就认为这是一个有知识储备的学生写出来的文章,自然就能拿高分】)
经过深思熟虑,我认为认为这个说法是行不通的,搜索引擎是面对的所有网民,不可能对文章文采作为算法依据之一。万一收录的内容网民看不懂不是给自己找不自在降低用户搜索体验度吗。
回到正题,如何判断一个页面该不该收录,本文是从新颖的角度出发,让搜索引擎在用此文标题去索引库中找内容匹配的时候,让相似度尽量降低,也就是说这篇文章内容针对这个标题的描述素材比较新颖,有收录价值。
如果此文被近期收录,那么将给我前行的小货车上添火加碳!