基于
SEO的Log 日志分析軟件
應(yīng)該提供那些功能?
今天是連續(xù)第3個要過了12點(diǎn)才睡的日子了,希望今天可以告一個段落.
最近在考慮如何做基于 SEO 的日志分析工具, 每天都熬夜, 還真吃不消啊.
當(dāng)用戶在瀏覽器地址欄輸入一個網(wǎng)址的時候,web服務(wù)器在返回用戶需要頁面的同時也記錄用戶的其他數(shù)據(jù),比如用戶的瀏覽器是什么牌子的,用戶使用的IP地址,操作系統(tǒng)甚至記錄了用戶是輸入的網(wǎng)址還是從其他鏈接跳轉(zhuǎn)過來的等等。(好羅嗦)這部分記錄無疑是最基礎(chǔ)也是最重要的數(shù)據(jù),很多web數(shù)據(jù)挖掘工作都是從這里作為起點(diǎn)進(jìn)行的。
看過web服務(wù)器(比如apache , iis )日志的朋友們都知道,當(dāng)用戶訪問一個頁面產(chǎn)生的日志并不是只有一行,而是有很多行。稍加注意就會發(fā)現(xiàn),web服務(wù)器為當(dāng)前訪問頁面中包含的每個文件(圖片、javascript腳本等)都生成了一行記錄。這一行行的記錄就組成了原始日志文件。
對SEO工作來說,分析日志是一項必不可少的基本功。與SEO最相關(guān)的信息莫過于搜索引擎的來訪記錄和從搜索引擎帶來的流量2個指標(biāo)。目前國內(nèi)網(wǎng)站用戶使用的web log 日志分析工具大多使用 awstats 一類的開源工具。可以說awstats的流行,與日志分析愛好者的引薦是有很大關(guān)系的比如 車東 等人。
雖然我也使用awstats等工具,但毫無疑問現(xiàn)在市場上專門針對seo的log日志分析工具還很少見。同時由于awstats采用perl編寫,加上使用awstats自有的文件格式,這就導(dǎo)致了在awstats的基礎(chǔ)上加以修改提供基于seo的日志分析功能也非容易之事。
那么基于SEO的日志分析應(yīng)該提供那些功能呢,這就是我這幾天想的問題.
目前已經(jīng)實(shí)現(xiàn)了以下三個部分:
1.從原始日志文件中提取 頁面訪問 的記錄 .(去掉 .js , .css , .jpg 等記錄)見:"原始Log -> 頁面 Log "
2.針對提取出的 頁面訪問記錄 進(jìn)行派重 (bloom filter), 提取唯一的訪問記錄.見:"頁面Log -> sitemap "
3.針對提取出的 頁面訪問記錄 ,提取從 google 和 baidu 過來的搜索關(guān)鍵詞 記錄.
見:"頁面Log-> 搜索關(guān)鍵字分析"
準(zhǔn)備提供的功能:
通用功能: 除去沒有意義的請求(如JPG,GIF等), 分析真實(shí)的訪問請求
多日日志: 蜘蛛的圖表
單日日志: 蜘蛛的來訪數(shù)字, 蜘蛛的來訪時間段(這個很重要,可以判定搜索引擎更新頻率)
alpha 下載地址
基于SEO的日志分析
當(dāng)用戶在瀏覽器地址欄輸入一個網(wǎng)址的時候,web服務(wù)器在返回用戶需要頁面的同時也記錄用戶的其他數(shù)據(jù),比如用戶的瀏覽器是什么牌子的,用戶使用的IP地址,操作系統(tǒng)甚至記錄了用戶是輸入的網(wǎng)址還是從其他鏈接跳轉(zhuǎn)過來的等等。(好羅嗦)這部分記錄無疑是最基礎(chǔ)也是最重要的數(shù)據(jù),很多web數(shù)據(jù)挖掘工作都是從這里作為起點(diǎn)進(jìn)行的。
看過web服務(wù)器(比如apache , iis )日志的朋友們都知道,當(dāng)用戶訪問一個頁面產(chǎn)生的日志并不是只有一行,而是有很多行。稍加注意就會發(fā)現(xiàn),web服務(wù)器為當(dāng)前訪問頁面中包含的每個文件(圖片、javascript腳本等)都生成了一行記錄。這一行行的記錄就組成了原始日志文件。
對SEO工作來說,分析日志是一項必不可少的基本功。與SEO最相關(guān)的信息莫過于搜索引擎的來訪記錄和從搜索引擎帶來的流量2個指標(biāo)。目前國內(nèi)網(wǎng)站用戶使用的web log 日志分析工具大多使用 awstats 一類的開源工具。可以說awstats的流行,與日志分析愛好者的引薦是有很大關(guān)系的比如 車東 等人。
雖然我也使用awstats等工具,但毫無疑問現(xiàn)在市場上專門針對seo的log日志分析工具還很少見。同時由于awstats采用perl編寫,加上使用awstats自有的文件格式,這就導(dǎo)致了在awstats的基礎(chǔ)上加以修改提供基于seo的日志分析功能也非容易之事。
那么基于SEO的日志分析應(yīng)該提供那些功能呢,這就是我這幾天想的問題.
目前已經(jīng)實(shí)現(xiàn)了以下三個部分:
1.從原始日志文件中提取 頁面訪問 的記錄 .(去掉 .js , .css , .jpg 等記錄)見:"原始Log -> 頁面 Log "
2.針對提取出的 頁面訪問記錄 進(jìn)行派重 (bloom filter), 提取唯一的訪問記錄.見:"頁面Log -> sitemap "
3.針對提取出的 頁面訪問記錄 ,提取從 google 和 baidu 過來的搜索關(guān)鍵詞 記錄.
見:"頁面Log-> 搜索關(guān)鍵字分析"
準(zhǔn)備提供的功能:
通用功能: 除去沒有意義的請求(如JPG,GIF等), 分析真實(shí)的訪問請求
多日日志: 蜘蛛的圖表
單日日志: 蜘蛛的來訪數(shù)字, 蜘蛛的來訪時間段(這個很重要,可以判定搜索引擎更新頻率)
alpha 下載地址
基于SEO的日志分析
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
