同义词是否用不同页面获取排名|搜索引擎 Query处理简介
前几天朋友问我同义词怎么处理,要不要做成不同页面来获取排名,给了这2个词:personalized mug和custom mug。
我截图做了标注给他,回复:Google 现在已经能识别这些同义词。所以当搜索personalized mug和custom mug时,搜索结果的重复度很高(准确来讲,网页召回阶段是相同,排名阶段有少量差异)。而且上图看见,搜索personalized时,custom也会飘红,所以建议是做一个页面就好了(即 2 个同义词用一个页面来获取排名)。
Query 处理简介
以上的情况主要是在搜索引擎的 Query 处理阶段。这是用户输入关键词后的第一个阶段。Google 拿到用户的 Query 词(即搜索词)之后,并不是直接去索引库中查找,而是对 Query 词做了一些处理,比如规范化、分词、扩展和分析等,可以让搜索引擎去除干扰,更理解用户的查询,尽可能地准确地找到用户所需的信息。
主要有以下几个部分:
-
标点符号处理。去除无关字符,比如特殊符号,标点符号
-
大小写处理。将大写都改为小写
-
去掉停用词。比如 the、of、a,这些太常见,且不包含信息的单词
-
单复数处理。将复数统一为单数,如 phones 改为 phone
-
时态处理。都时态统一为基本时态,如 runs 改为 run
-
错别字处理。纠正拼写错误,如 gogle 改为 google
另外为了找到更全面的信息,还会做一些扩展,比如:
-
同义词扩展。将查询中的某些词替换为它们的同义词,以捕获用户可能使用的不同表述
-
查询扩展。基于词汇的共现,用户的搜索历史,或者其他信息源来扩展或修改查询
以上环节完成之后,就会形成一个清晰又丰富的词组,可以去索引库中找到更多更准确的网页了。
在 AI 时期,Query 处理对搜索引擎会更重要,因为 Query 更长,更需要了解用户的意图。
本篇文章来源于微信公众号: SEO技术流