2017-03-15(三):用Google Chrome瀏覽器直接網路爬蟲的方法
今天要跟大家分享的是,直接用Google瀏覽器就能網路爬蟲的方法,假設我們在沒有
任何工具的情況下,光靠瀏覽器是否可以知道XPath正則位址呢?答案是可以的,只要
用Google瀏覽器就可以囉!知道XPath可以讓我們以較快的方式,找到在一個網頁上
,我們所想到抓取與找尋的字串。
01.在Google瀏覽器按下F12,就會出現,點選左上角反藍處的箭頭框框圖示
02.回到瀏覽網頁的空間處,框選出我們想找抓的字串範圍
03.重點是這一步,在抓到反藍的那一行程式碼,按下滑鼠右鍵→Copy→Copy XPath
順利找出正則的位址,我們把它複製下來
04.這就是我們找出的XPath正則位址
05.找出之前R語言學到的一些指令,做個小小整理貼在記事本上
06.把剛剛用谷歌瀏覽器找到的XPath正則位址,貼在version.block2那一行
07.整理好R語言的指令後,整段複製下來
08.打開R語言編輯器,貼上剛剛的那一段指令
09.把R語言讀完XPath正則的那一段跑出來的抓取字串結果,複製完開啟新記事本做貼上
10.稍微做整理,用記事本→編輯→全部取代清理掉\t
11.稍微做整理,用記事本→編輯→全部取代清理掉\n
12.稍微做整理,剩下一個步驟清理掉文章前段的空格數,因為抓下來
的文章段跟文章段落之間,每個段落前段跟後段的空格數是不一樣的,
但規則上每篇文章段落前段空格、後段空格數又都是一樣的,所以我們
只要清掉文章段落前段的空格,留下後段空格做區分辨認,再一行一行
Enter做區隔,這樣我們抓的字串就會看起來很乾淨整齊。
13.貼上前段的空格做編輯→全部取代
14.留下後段的空格數,做為每段文章跟每段文章的區隔
15.再一行一行Enter完畢,我們抓下來的內容字串就會變的很乾淨、很好找。完成^^Y
-------
廣利痞客-用Google Crome直接網路爬蟲
evernote備份,字串抓取作品檔案txt:
-------
還搞不懂我在說甚麼,請看我之前寫的R爬蟲文章
延伸閱讀,用R語言寫個爬蟲:
-------
留言列表