用R語言寫個爬蟲
SelectorGadget 是 Google Chrome 瀏覽器的一個外掛工具,可以用來顯示網頁中任意元素的 CSS 選擇器路徑,幫助我們快速擷取網頁上的資料。
先拿自己的部落格做試驗,用谷歌瀏覽器開啟SelectorGadget
01.選取文章區域,綠色顯示爬蟲框選區
02.選取文章區域,直到下方
03.點一下SelectorGadget小工具的XPath
04.複製XPath中CSS選擇器的內容
05.開啟R軟體安裝rvest套件
輸入
install.packages("rvest") library(rvest)
06.用XPath的寫法,抓取想到爬蟲的內容文字範圍
輸入
page.source <- read_html("http://mikejohn.pixnet.net")
version.block2 <- html_nodes(page.source, xpath = '//*[(@id = "article-area")]')
content2 <- html_text(version.block2)
head(content2)
07.複製內容
08.然後放到剪貼簿快速整理一下,大致內容如下
還好不會很難整理,不然會想放棄,發現把亂碼全部用空白取代,幾秒就整理完了
大概是這樣,這已經是我這兩天來研究的全部了,總算有點小小收穫
之前試過其他更多的方法,可是套件全部裝了打指令仍然出現not find.......也不知道為甚麼???
一點點小疑惑,無奈><
最後幫大家整理了一點點東西在下面,如果不知道套件要用什麼的話,那就放大絕
全裝了吧!
只要複製貼到R的指令區就自動跑囉!
廣利痞客爬蟲結果,連結:
R語言,install一覽表,連結:
留言列表