這幾天有跟朋友在討論,關(guān)于谷歌搜索引擎不收錄網(wǎng)站內(nèi)容的問題,以及相應(yīng)的一些解決方案。那今天這篇文章就簡單的梳理一下相關(guān)的邏輯,并分享一點我們自己的做法。
首先是怎么收錄的問題,即要不要手動提交申請收錄。
其實谷歌搜索引擎爬蟲是會定期光顧網(wǎng)站內(nèi)容的,并且在網(wǎng)站的站點地圖上,有一個 LastMod 字段是能夠記錄網(wǎng)站最新內(nèi)容的更新時間的。所以理論上是不需要我們再單獨手動,在谷歌站長工具里面提交我們的收錄申請。
但是按照我們自己的經(jīng)驗,被動等待這種方式,最快也需要 2-3 天才能被爬蟲發(fā)現(xiàn)并收錄,遠不及主動提交方式來得快(最快 2-3 小時)。
所以處于收錄速度與數(shù)據(jù)統(tǒng)計便利的角度出發(fā),還是建議在內(nèi)容上線后采用手動提交的方式,去請求內(nèi)容收錄。不過要注意的是,大部分谷歌站長賬戶的請求數(shù)量是有限制的(每天 10 條左右)。
但是無論是采用主動還是被動的收錄方式,都會存在一個問題,即網(wǎng)站的內(nèi)容不被谷歌搜索引擎收錄。比如下圖便是我的一個新站數(shù)據(jù),記錄著鏈接不被收錄的原因。

像“redirect error”,“noindex”這種技術(shù)類的問題是很好解決的,難的就是這種“currently not indexd”問題,根本不知道從哪里下嘴。
因為從我們站長的角度出發(fā),都是采用相同手段寫的文章,也都是相同時間段提交的內(nèi)容,但就是會存在有幾個內(nèi)容不被收錄的概率。要么是“Discovered(已經(jīng)發(fā)現(xiàn)內(nèi)容)”不被收錄,要么是“Crawled(已經(jīng)抓取內(nèi)容)”不被收錄。
其實針對這些問題,去閱讀官方指導手冊,根本看不出門道來。手冊里面大多都是一個指導性的官話,要么內(nèi)容重復,要么內(nèi)容質(zhì)量低下。
讓我們自查自糾的話,很難下手。
那這里分享兩個我們團隊在用的,解決這類問題的兩個小方法。
方法一是“等”,其實有時候那些“Discovered - currently not indexd”問題,可能是因為分配給網(wǎng)站的爬蟲抓取資源有限,導致沒有更多的爬蟲去處理這塊內(nèi)容。
那針對這種問題,我們可以先等幾天看看谷歌搜索引擎是不是會收錄。按照我自己的經(jīng)驗,基本上等幾天再重新手動提交一遍收錄,就能解決問題。另外還可以使用內(nèi)鏈的方式去做這種內(nèi)容的收錄,邏輯就是在新內(nèi)容里加一條內(nèi)鏈了,比較簡單。
但是對于“Crawled - currently not indexd”問題,再次提交收錄基本沒用。因為從技術(shù)角度出發(fā),這個階段谷歌搜索引擎已經(jīng)抓取了你的內(nèi)容,只不過因為內(nèi)容質(zhì)量可能存在問題,導致最終沒有收錄。
所以要么你花大量精力去更改內(nèi)容,使其符合谷歌搜索引擎的標準(說實話這個標準沒辦法量化,挺虛無縹緲的)。也正是基于此點,這種直接修改內(nèi)容的方式,我基本很少使用。
所以如果可以的話,考慮下修改文章的標題并修改文章的鏈接地址信息,將那條不收錄的內(nèi)容包裝成一個“新”內(nèi)容,再去請求收錄,80% 的概率能通過,就是這么魔幻。
以上,一點關(guān)于收錄問題的分享。

文章為作者獨立觀點,不代表DLZ123立場。如有侵權(quán),請聯(lián)系我們。( 版權(quán)為作者所有,如需轉(zhuǎn)載,請聯(lián)系作者 )
網(wǎng)站運營至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個互相交流的平臺和資源的對接,特地開通了獨立站交流群。
群里有不少運營大神,不時會分享一些運營技巧,更有一些資源收藏愛好者不時分享一些優(yōu)質(zhì)的學習資料。
現(xiàn)在可以掃碼進群,備注【加群】。 ( 群完全免費,不廣告不賣課!)
