我们辛辛苦苦的通过github pages建好我们的博客之后。接下来可能会想要更多的人来访问我们的博客, 然后一顿操作后发现,github 把百度的爬虫屏蔽了,所以我们的网站也就不能被百度搜索了,我们的博客也就没法被百度搜索到了。
这怎么行呢? 我们的博客主要群体还是国内的程序员的,少了百度这个来源,访问量一下子少了一大半。
作为一名程序员,我们怎么能被这个事情难倒呢?
让我们来分析一下,github 把百度的爬虫屏蔽了,这导致了我们的博客不能被百度收录。既然百度不能爬github了,我们可以让百度去别的地方爬我们的博客呀。
思路一开天地宽,我们可以通过CDN的机制来把我们的博客搬到CDN上,然后让百度访问CDN就可以了呀。
可惜,试过七牛云等一些国内的CDN,发现同步网站还要备案,这个我要是有,也就不用这么麻烦的想办法同步内容到百度了,这一步是走不通了。
最后,我发现了vercel这个网站,可以镜像我们的github 博客,而又没有屏蔽百度的爬虫,完美的解决了我的问题。
准备
- github博客站建好
- 一个域名,我们需要域名来做博客的跳转。
操作
关联vercel
- 注册登录vercel
- 新建一个项目(add new project), 关联到自己github上的 博客仓库
- 添加指向vercel项目的二级域名,比如我的
blog.hancher.top
- 此时,我们在Vercel里的项目已经构建好了,下次 GitHub 项目的任何更新都会触发 Vercel 项目更新
配置域名解析
去域名的解析后台,添加域名的CNAME解析,记录值cname-china.vercel-dns.com
此时,通过blog.hancher.top
就可以访问vercel CDN上的静态网站了。
当然,也可以将记录值改为Vercel的自己项目的vercel.app 域名。将线路解析类型改为百度
亦可。
关联百度解析
- 去百度站点管理 里注册账号,创建
blog.hancher.top
域名的网站,即可以抓取我们的博客站点了。 - 将百度给的一个签名放到网站的根目录下
- 通过抓取诊断 来验证我们的博客是否可以正常抓取
- 耐心等待几天,在百度搜索框里搜索
site:blog.hancher.top
来验证我们的配置是否生效,此时大概率就能搜到自己的博客文章了。
参考
知乎-如何解决百度爬虫无法爬取搭建在Github上的个人博客的问题 建站过程中的踩坑记录:自定义域名、百度收录与备案
文档信息
- 本文作者:寒澈
- 本文链接:https://www.hancher.top/2024/05/22/how_baidu_spide_github_site/
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)