反spam與spam間的較量
搜索引擎第一輪反擊是,在排序時(shí)更多地依賴網(wǎng)頁正文而不是meta tag。但spam們以進(jìn)為退,在正文中大量使用與網(wǎng)頁背景相同顏色的關(guān)鍵字,在圖片注釋文字中塞進(jìn)關(guān)鍵字,在網(wǎng)頁代碼加入“看不見的注釋”。搜索引擎又開始第二輪反擊,它們找
到了有效的方法來過濾這些看不見的文字。
搜索引擎的spider(蜘蛛)在訪問任何網(wǎng)站時(shí)都會(huì)自報(bào)身份,并且查閱網(wǎng)站的訪問規(guī)定,按照各網(wǎng)站的規(guī)矩來辦事。于是,SEO隨之制作兩個(gè)網(wǎng)站,一個(gè)專供網(wǎng)友訪問,一個(gè)專供搜索引擎訪問,“各取所需”,這種方法叫做cloaking(外套)。
在國外,其實(shí)早在上世紀(jì)SEO SPAM便已成大熱門。據(jù)1998年的一次調(diào)查,在主要的搜索引擎上搜索當(dāng)時(shí)的熱門詞匯“Monica Lewinsky”(莫妮卡·萊溫斯基),各搜索引擎首頁居然有40%的搜索結(jié)果是垃圾網(wǎng)站。
搜索引擎只能去尋找新的相關(guān)性排序依據(jù),或作弊者不能控制的排序依據(jù),即到網(wǎng)站以外去尋找排序的依據(jù)。于是,出現(xiàn)了超鏈分析,出現(xiàn)了Pagerank。超鏈分析的原理即是看網(wǎng)頁間的同類鏈接點(diǎn)作為重要依據(jù),此后,又根據(jù)各網(wǎng)站的權(quán)重等來綜合分析等。這樣,gov(政府網(wǎng)站)和edu(教育網(wǎng)站)通常被賦予較高的排名,來自gov和edu的超鏈也有更高的價(jià)值。
但spam們又據(jù)此做大量的網(wǎng)站,準(zhǔn)備大量的鏈接,哪個(gè)客戶出錢,所有的網(wǎng)頁都給它一個(gè)鏈接。這種SEO方法被稱為link farm。而反spam的做法就是憑發(fā)現(xiàn)的link farm而認(rèn)定此即為作弊網(wǎng)站。
據(jù)某論壇上某個(gè)站長透露,目前,在中國已經(jīng)形成了一個(gè)巨大SEO SPAM市場,據(jù)反spam專家王某的估計(jì),中國以此為生的人數(shù)大約在數(shù)十萬,其網(wǎng)站更是高達(dá)數(shù)百萬計(jì)。在互聯(lián)網(wǎng)上,有眾多SEO網(wǎng)站,它們打著各種旗號來“指導(dǎo)”人們作弊,并在上面談心得體會(huì)。
這些SEO SPAM們“賴以生存”的方式主要是以下兩種:1.利用搜索引擎引來網(wǎng)站流量帶動(dòng)的廣告收入;2.販賣通過對搜索引擎作弊獲得的較高的關(guān)鍵詞排名。網(wǎng)站流量以獨(dú)立IP計(jì)算,根據(jù)站長的透露,自己每日5000個(gè)獨(dú)立IP的訪問量,僅加入了電影寬帶等3家的廣告聯(lián)盟,月入已達(dá)1300元左右。而一個(gè)被百度收錄2萬左右網(wǎng)頁的做流量的網(wǎng)站,每日IP很快就能漲到4萬元。
前赴后繼的spam
SEO SPAM的破壞性是相當(dāng)巨大的,它不僅直接破壞了每日數(shù)億計(jì)的用戶搜索體驗(yàn)———這是搜索引擎網(wǎng)站賴以生存的關(guān)鍵所在,同時(shí)也破壞了搜索引擎獲得收益的主要來源———競價(jià)排名以及相關(guān)廣告。
據(jù)有關(guān)統(tǒng)計(jì)資料,在所有網(wǎng)頁中,摒除無效網(wǎng)頁,作弊網(wǎng)頁占到整個(gè)網(wǎng)頁的10%;在某些熱門關(guān)鍵詞的搜索中,其前50篇網(wǎng)頁,垃圾網(wǎng)站的網(wǎng)頁所占比例甚至可以高達(dá)80%以上。
在中國,Google一直以謙謙君子的形象示人,但它也有發(fā)怒的時(shí)候。
2005年3月26日凌晨4點(diǎn),忍無可忍的Google突然發(fā)力,將一大批spam站點(diǎn)清除。Google的頁面恢復(fù)了以前的干凈。
但事隔不到4個(gè)月,垃圾網(wǎng)站的網(wǎng)頁又如潮水般涌來。據(jù)來自Google的內(nèi)部消息,Google也一直在致力于反spam,但建立一個(gè)完整的反垃圾網(wǎng)站系統(tǒng)是一個(gè)漫長的過程,在中國,反垃圾網(wǎng)站的人才更是奇貨可居。在采訪百度時(shí),百度即不愿披露反垃圾網(wǎng)站專家的姓名,“因?yàn)檫@是百度最為寶貴的人才之一”。
據(jù)王某透露,其實(shí)在搜索引擎與垃圾網(wǎng)站的長期斗爭中,搜索引擎總是處于守勢。這不僅因?yàn)樗阉饕婀菊嬲紤]搜索結(jié)果相關(guān)性和排序的只有幾個(gè)人,而互聯(lián)網(wǎng)上整天琢磨怎么對付搜索引擎的有幾十萬網(wǎng)站管理員,更重要的是,制造一個(gè)或幾十個(gè)甚至幾百個(gè)作弊網(wǎng)頁,只要將一個(gè)目標(biāo)網(wǎng)頁稍作改動(dòng)即可實(shí)現(xiàn),并可以不斷進(jìn)行類似復(fù)制,而搜索引擎甄別、刪除卻需要相當(dāng)?shù)臅r(shí)間,這種“以一當(dāng)百”,以一個(gè)網(wǎng)站對付數(shù)以萬計(jì)作弊網(wǎng)站的工作,對搜索引擎而言,是一個(gè)巨大的人力資源投入與成本投入。
目前,垃圾網(wǎng)站的新攻擊方向是博客網(wǎng)站。在國內(nèi)的各大博客,目前均已苦不堪言,spam如蝗蟲般涌來,流量太大會(huì)導(dǎo)致網(wǎng)站通道堵塞而無法訪問。
這一斗爭過程,已完全類同于互聯(lián)網(wǎng)的病毒與反病毒,所不同的是,制造病毒的成本有時(shí)會(huì)更高些———需要很高的技術(shù)門檻,而制造垃圾網(wǎng)站的門檻卻相當(dāng)?shù)停抑谱鞣奖恪?
因此,作為搜索引擎,對待垃圾網(wǎng)站的態(tài)度是高度地一致:永久刪除。
但在搜索中,永遠(yuǎn)會(huì)有垃圾網(wǎng)站的存在,因?yàn)樗繒r(shí)每刻都在誕生。由于垃圾網(wǎng)站的成本與收入間的巨大差異,SEO SPAM們還會(huì)勇往直前,前赴后繼。而到目前為止,政府以及相關(guān)部門還沒有對這種互聯(lián)網(wǎng)上的“假冒偽劣”制定相應(yīng)的法律制度來制約。但相信這一天一定會(huì)到來。(朱建國
暴春燕)
責(zé)任編輯 原霞