2017-03-15(三)：用Google Chrome瀏覽器直接網路爬蟲的方法－飛躍電通

2017-03-15(三)：用Google Chrome瀏覽器直接網路爬蟲的方法

今天要跟大家分享的是，直接用Google瀏覽器就能網路爬蟲的方法，假設我們在沒有

任何工具的情況下，光靠瀏覽器是否可以知道XPath正則位址呢？答案是可以的，只要

用Google瀏覽器就可以囉！知道XPath可以讓我們以較快的方式，找到在一個網頁上

，我們所想到抓取與找尋的字串。

01.在Google瀏覽器按下F12，就會出現，點選左上角反藍處的箭頭框框圖示

02.回到瀏覽網頁的空間處，框選出我們想找抓的字串範圍

03.重點是這一步，在抓到反藍的那一行程式碼，按下滑鼠右鍵→Copy→Copy XPath

順利找出正則的位址，我們把它複製下來

04.這就是我們找出的XPath正則位址

05.找出之前R語言學到的一些指令，做個小小整理貼在記事本上

06.把剛剛用谷歌瀏覽器找到的XPath正則位址，貼在version.block2那一行

07.整理好R語言的指令後，整段複製下來

08.打開R語言編輯器，貼上剛剛的那一段指令

09.把R語言讀完XPath正則的那一段跑出來的抓取字串結果，複製完開啟新記事本做貼上

10.稍微做整理，用記事本→編輯→全部取代清理掉\t

11.稍微做整理，用記事本→編輯→全部取代清理掉\n

12.稍微做整理，剩下一個步驟清理掉文章前段的空格數，因為抓下來

的文章段跟文章段落之間，每個段落前段跟後段的空格數是不一樣的，

但規則上每篇文章段落前段空格、後段空格數又都是一樣的，所以我們

只要清掉文章段落前段的空格，留下後段空格做區分辨認，再一行一行

Enter做區隔，這樣我們抓的字串就會看起來很乾淨整齊。

13.貼上前段的空格做編輯→全部取代

14.留下後段的空格數，做為每段文章跟每段文章的區隔

15.再一行一行Enter完畢，我們抓下來的內容字串就會變的很乾淨、很好找。完成^^Y

-------

廣利痞客-用Google Crome直接網路爬蟲

evernote備份，字串抓取作品檔案txt：

https://goo.gl/lWOUVq

-------

還搞不懂我在說甚麼，請看我之前寫的R爬蟲文章

延伸閱讀，用R語言寫個爬蟲：

https://goo.gl/J4vlVY

-------

2017-03-15(三)：用Google Chrome瀏覽

飛躍電通

飛躍電通發表在痞客邦留言(0) 人氣()

E-mail轉寄

«	十月 2025	»
日	一	二	三	四	五	六
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

十月 2025

日

一

二

三

四

五

六

飛躍電通

SEO、網路行銷、文案企劃最佳解決方案

2017-03-15(三)：用Google Chrome瀏覽器直接網路爬蟲的方法

歷史上的今天

留言列表

參觀人氣

文章分類

網站技術文 (2)

推薦與分享 (2)

書評與影評 (2)

行銷與講座 (3)

文學與小說 (4)

旅遊與個人經營 (13)

學習與其他 (4)

部落格文章搜尋

熱門文章

近期文章

文章彙整

新聞交換(RSS)

月曆

QR Code

«	十月 2025					»
日	一	二	三	四	五	六
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

«	十月 2025					»
日	一	二	三	四	五	六
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

«	十月 2025					»
日	一	二	三	四	五	六
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31