發(fā)布時(shí)間:2022-02-13 12:49:59 人氣:
1. 先去各個(gè)搜索引擎網(wǎng)站注冊(cè),讓各個(gè)搜索引擎的爬蟲找得到你。當(dāng)然,你也可以不注冊(cè),但那樣爬蟲(搜索引擎)注意到你會(huì)晚很久,影響排名。
2. 利用SEO原理優(yōu)化網(wǎng)站,對(duì)題目、關(guān)鍵詞、元素都進(jìn)行優(yōu)化。這些可以參考一些專業(yè)介紹和書籍。優(yōu)化一步步來(lái),這個(gè)可以自己不斷學(xué)習(xí)。
3. 和其他網(wǎng)站進(jìn)行互鏈,增加頁(yè)面權(quán)重。鏈接越多越好,越是牛的網(wǎng)站鏈接你的網(wǎng)站帶來(lái)的權(quán)重越高。盡量多做互鏈,這個(gè)權(quán)重很高。
4. 保持網(wǎng)站不斷更新,更新越勤快,爬蟲和搜索引擎認(rèn)為網(wǎng)站約有價(jià)值,搜索排名會(huì)不斷提高。當(dāng)然,內(nèi)容要不斷創(chuàng)新,帶給用戶不斷新的價(jià)值和體驗(yàn)。
總之,勤奮、專注是成功之道,最好自己維護(hù)。
你可以先評(píng)估一下自己的爬蟲是io密集還是cpu密集。
io密集:程序大部分時(shí)間花在了io等待上,比如網(wǎng)絡(luò)io,即,即文件讀寫等。
cpu密集: 程序大部分時(shí)間花在了cpu計(jì)算上,比如文本處理,數(shù)值計(jì)算等。
如果是io密集,那么你可以將這部分的功能通過(guò)線程池或者協(xié)程池進(jìn)行并發(fā),這樣就提升了速度。
不過(guò)這里的網(wǎng)絡(luò)io有個(gè)前提,你的帶寬不是你爬蟲的瓶頸。
如果是cpu密集,那么可以把這部分工作通過(guò)進(jìn)程池(多進(jìn)程)進(jìn)行并行處理,這樣就提升了速度。多進(jìn)程則意味著你的機(jī)器是多核的。
不過(guò)還有一些地方是值得優(yōu)化的,比如一些庫(kù)的選擇上,例如beautifulsoup雖然很方便,但是有更快的實(shí)現(xiàn)方式,比如selectolax的速度要快很多。
如果你無(wú)法判斷,那么就先多線程,然后多進(jìn)程吧。
如果是單機(jī)解決不了,就用工作隊(duì)列吧,比如celery。多機(jī)并行,一定能提升速度,而且是水平擴(kuò)展的,當(dāng)然了,這得讓你的任務(wù)能夠分布式。