close

用R語言寫個爬蟲

SelectorGadget 是 Google Chrome 瀏覽器的一個外掛工具,可以用來顯示網頁中任意元素的 CSS 選擇器路徑,幫助我們快速擷取網頁上的資料。

名稱:SelectorGadget
適用瀏覽器:Google Chrome
下載網址:Chrome 線上應用程式商店
官方網站:http://selectorgadget.com/

先拿自己的部落格做試驗,用谷歌瀏覽器開啟SelectorGadget

01.選取文章區域,綠色顯示爬蟲框選區

undefined

02.選取文章區域,直到下方

undefined

03.點一下SelectorGadget小工具的XPath

undefined

04.複製XPath中CSS選擇器的內容

undefined

05.開啟R軟體安裝rvest套件

輸入

install.packages("rvest")
library(rvest)

​​​​​​​

undefined

06.用XPath的寫法,抓取想到爬蟲的內容文字範圍

輸入

page.source <- read_html("http://mikejohn.pixnet.net")

version.block2 <- html_nodes(page.source, xpath = '//*[(@id = "article-area")]')
content2 <- html_text(version.block2)
head(content2)

undefined

07.複製內容

undefined

08.然後放到剪貼簿快速整理一下,大致內容如下

還好不會很難整理,不然會想放棄,發現把亂碼全部用空白取代,幾秒就整理完了

大概是這樣,這已經是我這兩天來研究的全部了,總算有點小小收穫

之前試過其他更多的方法,可是套件全部裝了打指令仍然出現not find.......也不知道為甚麼???

一點點小疑惑,無奈><

undefined

最後幫大家整理了一點點東西在下面,如果不知道套件要用什麼的話,那就放大絕

全裝了吧!

只要複製貼到R的指令區就自動跑囉!

廣利痞客爬蟲結果,連結:

https://www.evernote.com/shard/s224/sh/14a19d48-7274-474c-9bb4-88b941754915/ddaf7ab00fba50dfb7e32cf7252b236d

R語言,install一覽表,連結:

https://www.evernote.com/shard/s224/sh/a388ce51-7ce2-4d84-890e-f5ffec8bb3f6/1bdd902031d8b4867399a03472bdbb11

arrow
arrow
    文章標籤
    用R語言寫個爬蟲
    全站熱搜

    飛躍電通 發表在 痞客邦 留言(0) 人氣()