2017-03-15(三):用Google Chrome瀏覽器直接網路爬蟲的方法

今天要跟大家分享的是,直接用Google瀏覽器就能網路爬蟲的方法,假設我們在沒有

任何工具的情況下,光靠瀏覽器是否可以知道XPath正則位址呢?答案是可以的,只要

用Google瀏覽器就可以囉!知道XPath可以讓我們以較快的方式,找到在一個網頁上

,我們所想到抓取與找尋的字串。

01.在Google瀏覽器按下F12,就會出現,點選左上角反藍處的箭頭框框圖示

02.回到瀏覽網頁的空間處,框選出我們想找抓的字串範圍

03.重點是這一步,在抓到反藍的那一行程式碼,按下滑鼠右鍵→Copy→Copy XPath

順利找出正則的位址,我們把它複製下來

04.這就是我們找出的XPath正則位址

05.找出之前R語言學到的一些指令,做個小小整理貼在記事本上

06.把剛剛用谷歌瀏覽器找到的XPath正則位址,貼在version.block2那一行

07.整理好R語言的指令後,整段複製下來

08.打開R語言編輯器,貼上剛剛的那一段指令

09.把R語言讀完XPath正則的那一段跑出來的抓取字串結果,複製完開啟新記事本做貼上

10.稍微做整理,用記事本→編輯→全部取代清理掉\t

11.稍微做整理,用記事本→編輯→全部取代清理掉\n

12.稍微做整理,剩下一個步驟清理掉文章前段的空格數,因為抓下來

的文章段跟文章段落之間,每個段落前段跟後段的空格數是不一樣的,

但規則上每篇文章段落前段空格、後段空格數又都是一樣的,所以我們

只要清掉文章段落前段的空格,留下後段空格做區分辨認,再一行一行

Enter做區隔,這樣我們抓的字串就會看起來很乾淨整齊。

13.貼上前段的空格做編輯→全部取代

14.留下後段的空格數,做為每段文章跟每段文章的區隔

15.再一行一行Enter完畢,我們抓下來的內容字串就會變的很乾淨、很好找。完成^^Y

-------

廣利痞客-用Google Crome直接網路爬蟲

evernote備份,字串抓取作品檔案txt:

https://goo.gl/lWOUVq

-------

還搞不懂我在說甚麼,請看我之前寫的R爬蟲文章

延伸閱讀,用R語言寫個爬蟲:

https://goo.gl/J4vlVY

-------

arrow
arrow

    飛躍電通 發表在 痞客邦 留言(0) 人氣()