【干货】作为seo,如何对150万的关键词进行筛选和过滤?
做为seo的正规军,对于关键词的筛选和过滤应该是家常便饭了,如果你还没有操作过,那么很可能你的seo经历还不是很完整哦。
对于几百上千的关键词,我们手工筛选一下,可能也用不了多久。但是如果是几万,十几万甚至是几十万的关键词,要是人工来慢慢过滤的话那就太“幸福”了。
本文将讲解两种方法来批量对关键词进行过滤,第一种是人工的方法,第二种就是用技术的手段啦,轻松加愉快的那种。
正则表达式
没错,这个就是我们今天用到的利器,如果你还不知道正则表达式是什么甚至没听说过的话,那么就需要好好的补补啦。
正则表达式是什么东西?
❝
正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。
❞
然后我们来个5分钟入门一下吧。学习正则表达式最主要的就是记住元字符以及知道如何使用就好啦。
具体请移步菜鸟教程:https://www.runoob.com/regexp/regexp-metachar.html
好啦,我们学习了正则表达式之后我们来看看如何在我们的关键词筛选中发挥重大作用吧。
首先我们得准备好关键词和一个文本编辑器(VSCode)
就是这个,你也可以使用其他的支持正则表达式的编辑器,比如sublime,notepad++等。
实战演示
在做任何的事情之前都要明白,是什么事情,为什么要做以及如何做?
什么是关键词筛选和过滤?
关键词筛选和过滤就是我们从站长工具或者是别的地方获取到的某个领域的关键词是没有经过任何处理的,里面可能包含有色情、反动、暴力、违法违规以及一些我们不想要的词语、字母、数字等等。还有一些是与我们想要做的领域是不相关的关键词,对于这些关键词我们需要把它们全部删除掉。还有一些关键词可能中文字符之间包含有空格以及特殊符号等,我们需要把这些符号给去除掉或者是替换为特定的字符等。还有就是对于某些字数过多或过少的词我们也需要把它们给剔除掉。
经过筛选和过滤之后,我们就初步有了一个符合我们需要做的领域的词语了,接下来就需要对这些词语进行去重和分类啥的,这个不在本文的讨论范围。
为什么要做关键词筛选和过滤?
这个原因很明确啦,如果不做筛选和过滤的话,那么我们的词就是些乱七八糟的词啦,而且可能包含违禁词语等,那么这些都是很危险的呢。特别是违禁词语,不仅仅是可能导致我们网站seo没有效果,还可能被警察叔叔找上门哦。
所以,对收集来的关键词进行筛选和过滤是很有必要的呢。
如何进行关键词筛选和过滤?
如果关键词不多的话,那么最简单的方法当然是一个个词进行人工筛查啦。当然了这种速度是非常慢的。本人也经历过大量的手工筛词,那一个眼花缭乱啊,后来练就了一目十行的本领。
接下来我们演示一下如何实战筛选关键词:
我这里准备了150w的关于游戏类的关键词(真是个令人崩溃的数字)
首先呢,要明确优化目的,因为游戏本身是个大的分类。而根据自身的实际情况进行选择。
我这里的话就计划只做攻略、技能、玩法和人物介绍等。其余的下载、视频、音频、图片啥的都要干掉的。还有一些很污的词也要干掉。下面我们来实际操作下。
首先先准备好我们的正则表达式:
.*(视频|图|下载|背景|皮肤|更新|表情|ed2k|app|mp4|mp3).*n
上面这条正则表达式的意思就是,只要关键词里面包含上面的这些词(用竖线分隔)的其中一个,那么就会被匹配到。那么我们就可以把包含这些我们不想要的关键词给快速的找出来啦。
然后放到vscode里面去,将它们替换为空就好了。
具体操作,Windows的按Ctrl+h
Mac的童鞋请按 Option+Command+f
就可以调出替换的命令了。
然后看到,在替换那一栏的右边有一个.*
的符号标记,点击一下就可以启用正则表达式模式的(默认是普通文本模式),如图:
然后把我们事先准备好的正则表达式粘贴进去,这里有一个小忠告就是,如果数据量很大,那么最好是在另外的空白文本里面事先写好正则表达式在进行粘贴,否则程序可能会卡死哦!
可以看到,匹配出来2万+,具体多少等下我们替换了就知道了。然后我们接着就是按下快捷键ctrl+alt+enter
进行全部替换。
还剩下136.6万,一下子十几万的关键词就过滤掉了。如果人工一个个删的话,得是猴年马月哦。所以说,掌握正确的方法是可以快速的提高效率的, 然后我们继续分析看看还有哪些关键词需要删除掉的。
然后我们发现了,名字|大全|代练|官方|客服|胸|啪啪|活动|赛|充值|版本|奶|注册|登录|网址|版|动画|服务器|无遮挡|sd|模拟器|应用|小说|软件
等一系列词都不是我们的目标关键词,因此要把它们删掉。
然后就只剩下 126万了,10万词又去掉了。那么其它的我就不一一演示了。
我们接下来,开始另一波操作,那就是我们发现有很多的关键词字数是很少的。
我们先做个初步的筛选,把字数少于6个字的词给干掉,因为这些词一般意义不大,优化上去也比较难。
准备好正则:^.{1,5}n
然后进行替换删除。这下又搞掉了好几万的词,接下来我们把词与词之间的空格以及一些特殊符号给删除掉。这个怎么来呢?
删除关键词中的空格和制表符:[ t??!()()]+
大家根据自己的实际情况填写需要过滤掉的特殊字符就行了。然后我们还是老样子进行粘贴替换为空。
当然,除了上面的操作,我们还发现了,很多意思相近的词是要处理的。比如:
一些疑问词和意思相近的词我们也要替换为统一的词,这样方便后续的去重操作等。如何替换?一般都是把长变短,因为长的包含短的。然后其他的不重叠的就可以随意啦。
正则表达:(.*)怎么样(.+n)
替换为 $1怎样$2
,每个小括号都表示一个分组哦。这里需要注意的是,如果是这种结尾的,我们是不能替换的,比如xxx怎么样
如果把怎么样,替换为了怎么,那么就有点表达失常了。所以我们的正则表达式后面是.+
而不是.*
的原因。
我们还需要把怎么
换成怎样
:
这样,关于包含“怎么样“,“怎么“和“怎样“的词就能统一啦。其它的词也是同理,这里就不一一演示了。
那么经过我们的删除,过滤和替换之后,我们的词库就初步完成啦。这是一项比较苦逼的工作,但是又是一个不可避免的任务。掌握好方法可以让我们事半功倍。
后续我们还要对关键词进行去重,然后分类,然后建立起真正的词库。如果词库里面的词太少了,我们还得继续拓展新增。不断的维护好我们的词库,以便于更好的指导seo的工作,也不至于没事做或者是无流量可做。
当然了,这种正则的方法的确比之前存人工浏览快了很多,但是还是速度不够快。我们要是能用一键运行就处理完就好啦。
想要实现这种美梦,那么就需要我们会一门程序。而python也是我们的首选哦,因为学习起来比较简单。比PHP都简单哦,我的第三期python与seo实战课程也准备开课啦,现在报名还能享受优惠价格哦。
传送门:第三期Python与seo实战训练营开始预售啦,9月开课
这里还要给大家分享一个小技巧,那就是每次我们筛选词库是用到的正则表达式都要留下来放到一个txt文档里面去哦,这样到下次再做同样的筛选的时候就不再需要再重写写一次正则啦,而只需要关注那些我们没有覆盖到的新的特征词就行了。然后不断的新增和维护你的正则表达式库,你就拥有你这个领域完整的筛选关键词的正则表达式了。之后的工作就是轻松加愉快啦。
总结
技术是seo不可或缺的一部分,如果一个seo不懂任何技术的话,那么他的成长是非常有限的,估计也就只能做个编辑专员或者是外链专员。而这些专员也很可能被程序给替代掉的呢。
学习一门技术,是提高你的核心竞争力的前提,这样老板也炒不了你,增加你的不可替代性。就算炒了你,你也可以凭借你的技术快速的得到一份新的工作,让你不再是那个烂大街的人才。
好啦,本次的分享就到这里。下回我们分享一下,通过python是如何快速的进行关键词筛选和过滤的,验一下技术带来的效率和快乐。
关注我,一起学习更多的seo技术