如果让百度爬虫爬我的github博客

2024/05/22 网站 共 986 字,约 3 分钟

我们辛辛苦苦的通过github pages建好我们的博客之后。接下来可能会想要更多的人来访问我们的博客, 然后一顿操作后发现,github 把百度的爬虫屏蔽了,所以我们的网站也就不能被百度搜索了,我们的博客也就没法被百度搜索到了。

这怎么行呢? 我们的博客主要群体还是国内的程序员的,少了百度这个来源,访问量一下子少了一大半。

作为一名程序员,我们怎么能被这个事情难倒呢?

让我们来分析一下,github 把百度的爬虫屏蔽了,这导致了我们的博客不能被百度收录。既然百度不能爬github了,我们可以让百度去别的地方爬我们的博客呀。

思路一开天地宽,我们可以通过CDN的机制来把我们的博客搬到CDN上,然后让百度访问CDN就可以了呀。

可惜,试过七牛云等一些国内的CDN,发现同步网站还要备案,这个我要是有,也就不用这么麻烦的想办法同步内容到百度了,这一步是走不通了。

最后,我发现了vercel这个网站,可以镜像我们的github 博客,而又没有屏蔽百度的爬虫,完美的解决了我的问题。

准备

  • github博客站建好
  • 一个域名,我们需要域名来做博客的跳转。

操作

关联vercel

  1. 注册登录vercel
  2. 新建一个项目(add new project), 关联到自己github上的 博客仓库 vercel关联github
  3. 添加指向vercel项目的二级域名,比如我的blog.hancher.top vercel配置域名
  4. 此时,我们在Vercel里的项目已经构建好了,下次 GitHub 项目的任何更新都会触发 Vercel 项目更新 vercel效果

配置域名解析

去域名的解析后台,添加域名的CNAME解析,记录值cname-china.vercel-dns.com 此时,通过blog.hancher.top就可以访问vercel CDN上的静态网站了。

当然,也可以将记录值改为Vercel的自己项目的vercel.app 域名。将线路解析类型改为百度 亦可。

关联百度解析

  1. 百度站点管理 里注册账号,创建blog.hancher.top域名的网站,即可以抓取我们的博客站点了。
  2. 将百度给的一个签名放到网站的根目录下 百度站点
  3. 通过抓取诊断 来验证我们的博客是否可以正常抓取 抓取诊断
  4. 耐心等待几天,在百度搜索框里搜索 site:blog.hancher.top来验证我们的配置是否生效,此时大概率就能搜到自己的博客文章了。 验证博客

参考

知乎-如何解决百度爬虫无法爬取搭建在Github上的个人博客的问题 建站过程中的踩坑记录:自定义域名、百度收录与备案

文档信息

Search

    Table of Contents