版主/廣利
部落格:http://mikejohn.pixnet.net/blog

歡迎來到「廣利痞客」,這裡是首頁廣告。

undefined

我是雷森兔,喜歡聽音樂

undefined

Facebook社群:Bitcoin比特幣免費資源

 

mikejohn 發表在 痞客邦 PIXNET 留言(1) 人氣()

2017-03-19(日):現在有個項目加入不用錢喔!記得跟阮會長說是廣利介
紹的^^Y

undefined

#神秘免費好康
#唯一的風險就是你沒有參與
#不加入那就太可惜了
#一定要了解看看

Instagram,連結網址:

https://www.instagram.com/p/BR0mVo7j9O5/

 

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

設定 Python 環境

undefined

連結網址:

https://gist.github.com/uranusjr/6fa2770a8c8651192e93

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

2017-03-15(三):用Google Chrome瀏覽器直接網路爬蟲的方法

今天要跟大家分享的是,直接用Google瀏覽器就能網路爬蟲的方法,假設我們在沒有

任何工具的情況下,光靠瀏覽器是否可以知道XPath正則位址呢?答案是可以的,只要

用Google瀏覽器就可以囉!知道XPath可以讓我們以較快的方式,找到在一個網頁上

,我們所想到抓取與找尋的字串。

01.在Google瀏覽器按下F12,就會出現,點選左上角反藍處的箭頭框框圖示

02.回到瀏覽網頁的空間處,框選出我們想找抓的字串範圍

03.重點是這一步,在抓到反藍的那一行程式碼,按下滑鼠右鍵→Copy→Copy XPath

順利找出正則的位址,我們把它複製下來

04.這就是我們找出的XPath正則位址

05.找出之前R語言學到的一些指令,做個小小整理貼在記事本上

06.把剛剛用谷歌瀏覽器找到的XPath正則位址,貼在version.block2那一行

07.整理好R語言的指令後,整段複製下來

08.打開R語言編輯器,貼上剛剛的那一段指令

09.把R語言讀完XPath正則的那一段跑出來的抓取字串結果,複製完開啟新記事本做貼上

10.稍微做整理,用記事本→編輯→全部取代清理掉\t

11.稍微做整理,用記事本→編輯→全部取代清理掉\n

12.稍微做整理,剩下一個步驟清理掉文章前段的空格數,因為抓下來

的文章段跟文章段落之間,每個段落前段跟後段的空格數是不一樣的,

但規則上每篇文章段落前段空格、後段空格數又都是一樣的,所以我們

只要清掉文章段落前段的空格,留下後段空格做區分辨認,再一行一行

Enter做區隔,這樣我們抓的字串就會看起來很乾淨整齊。

13.貼上前段的空格做編輯→全部取代

14.留下後段的空格數,做為每段文章跟每段文章的區隔

15.再一行一行Enter完畢,我們抓下來的內容字串就會變的很乾淨、很好找。完成^^Y

-------

廣利痞客-用Google Crome直接網路爬蟲

evernote備份,字串抓取作品檔案txt:

https://goo.gl/lWOUVq

-------

還搞不懂我在說甚麼,請看我之前寫的R爬蟲文章

延伸閱讀,用R語言寫個爬蟲:

https://goo.gl/J4vlVY

-------

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

WP文章標題字節長度控制
連結網址:

https://goo.gl/Hq3QWV

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

[WP] 讓過長的標題自動截斷

連結網址:

https://goo.gl/ov6RUd

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

法治世界網新網址

undefined

連結網址:

http://cht.lawlove.org

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

法治世界網舊網址
 

undefined

連結網址:

http://34567.tv
http://www.tw-roc.org

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

2017-03-10(五):「真正的800壯士有受到照顧嗎?」

undefined

詳全文:

https://www.instagram.com/p/BRdRCtEAVQc/

 

 

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

2017-03-05(日):將Excel轉換成文字檔,欄與欄之間用逗號做分隔的樣式行列

01.首先,將【手機號碼】欄位的儲存格格式改為文字樣式,就會顯示前面的0,這時

可以一行一行快速的輸入手機號碼。

undefined

02.輸入國家和性別,台灣的話,國家欄位內容輸入TW,性別的話M代表男性,F代表女性。

undefined

03.經濟狀況等等一一輸入完畢,(2代表經濟狀況良好),Line和WeChat不知道的話可以留空。

undefined

04.點選左上角按下「Ctrl+C」可以做Excel內容的全部複製。

undefined

05.打開記事本,按下「Ctrl+V」做大範圍的全部內容貼上,記事本預設的貼上格式,欄與欄之間會用Tab空白做分隔預設。

undefined

06.先用滑鼠抓取一段Tab空白,按下「Ctrl+C」做一個複製。

undefined

07.打開記事本【編輯→取代】功能,尋找目標按下「Ctrl+V」貼上剛剛抓下來的Tab空白,(PS.一定要這樣操作,如果直接按Tab無法顯示,會跳到下一格的輸入格子),取代為的地方輸入「,」逗號。

undefined

08.文字檔轉換的內容完成,欄與欄之間都用「,」逗號分隔好了喔!

undefined

09.為完成的結果文字檔,做個存檔動作與命名。

undefined

 

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

2017-03-05(日):Excel切字串+分割欄位

今天要示範的是「Excel切字串+分割欄位」,把姓名分割成姓氏欄

和名字欄兩個欄位。

01.首先,一開始是B欄的【姓名欄】我們要把這個欄位分開成兩個

欄位。

undefined

02.我們用【尋找及取代】功能,用聰明一點的方法,將【尋找目

標】輸入「陳」,【取代成】輸入「陳,」

undefined

03.如此,每個姓名都如法炮製,因為姓氏很多大姓會重複,所以

不會重複太多次,也省下很多時間。

undefined

04.再次確認,所有姓名的欄位內容都完成了這樣的加入逗號操作。

undefined

05.常用→資料選項有一個【文字轉換為欄】功能。

undefined

06.按下確定按鈕後,跳出欄位分割好的結果,想要的字串效果也切好了。

undefined

07.成功。

undefined

 

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

有免費高畫質的圖庫可以拿喔!

undefined

連結網址:

https://www.instagram.com/p/BRC3t0NDFOQ/

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

2017-02-27(一):用R語言寫個爬蟲

Word檔案,連結網址:

https://drive.google.com/open?id=0B8RQUWlrwmapOUR2UGFFYU9DOWc

Pdf檔案,連結網址:

https://drive.google.com/open?id=0B8RQUWlrwmapOWFjQmJwTFFWb0k

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

用R語言寫個爬蟲

SelectorGadget 是 Google Chrome 瀏覽器的一個外掛工具,可以用來顯示網頁中任意元素的 CSS 選擇器路徑,幫助我們快速擷取網頁上的資料。

名稱:SelectorGadget
適用瀏覽器:Google Chrome
下載網址:Chrome 線上應用程式商店
官方網站:http://selectorgadget.com/

先拿自己的部落格做試驗,用谷歌瀏覽器開啟SelectorGadget

01.選取文章區域,綠色顯示爬蟲框選區

undefined

02.選取文章區域,直到下方

undefined

03.點一下SelectorGadget小工具的XPath

undefined

04.複製XPath中CSS選擇器的內容

undefined

05.開啟R軟體安裝rvest套件

輸入

install.packages("rvest")
library(rvest)

​​​​​​​

undefined

06.用XPath的寫法,抓取想到爬蟲的內容文字範圍

輸入

page.source <- read_html("http://mikejohn.pixnet.net")

version.block2 <- html_nodes(page.source, xpath = '//*[(@id = "article-area")]')
content2 <- html_text(version.block2)
head(content2)

undefined

07.複製內容

undefined

08.然後放到剪貼簿快速整理一下,大致內容如下

還好不會很難整理,不然會想放棄,發現把亂碼全部用空白取代,幾秒就整理完了

大概是這樣,這已經是我這兩天來研究的全部了,總算有點小小收穫

之前試過其他更多的方法,可是套件全部裝了打指令仍然出現not find.......也不知道為甚麼???

一點點小疑惑,無奈><

undefined

最後幫大家整理了一點點東西在下面,如果不知道套件要用什麼的話,那就放大絕

全裝了吧!

只要複製貼到R的指令區就自動跑囉!

廣利痞客爬蟲結果,連結:

https://www.evernote.com/shard/s224/sh/14a19d48-7274-474c-9bb4-88b941754915/ddaf7ab00fba50dfb7e32cf7252b236d

R語言,install一覽表,連結:

https://www.evernote.com/shard/s224/sh/a388ce51-7ce2-4d84-890e-f5ffec8bb3f6/1bdd902031d8b4867399a03472bdbb11

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

Instagram,不會R語言也可以網頁爬蟲,只要輸入網址就可以

undefined

連結網址:
https://www.instagram.com/p/BQ2U94ij6Dy/

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

2017-02-23(四):plot.ly將爬蟲結果簡單快速圖表化(廣利痞客用plot.ly自動
圖表化結果)

plot.ly可以將爬蟲檔案迅速資料圖表化

目前plot.ly已經跟import.io做了合作、整合

也提供給R語言以外的新手一個新的方便選擇

這也是免費註冊的

下面是廣利痞客爬蟲檔案,用plot.ly自動圖表化結果:

http://plot.ly/~jikkzey/0.embed

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

網頁爬蟲工具import.io(廣利痞客,爬蟲結果檔案)

undefined

輸入網址import.io就可以免費註冊

不會R語言也可以網頁爬蟲,只要輸入網址就可以

免費註冊,可以下載爬蟲結果檔案

廣利痞客,爬蟲結果檔案:

https://goo.gl/FkjkMr

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

是甚麼樣的東西?能夠讓我們重新定義年輕?

undefined

了解答案→https://goo.gl/PlMmg2
 

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

2016/2/20(Mon) 中午開放報名。g0v hackath23n | 台灣零時政府第貳拾參次開放資料黑客松

undefined

免費報名:
http://g0v-jothon.kktix.cc/events/g0v-hackath23n

 

, , ,

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

2017-02-19(日):幹嗎跟幹嘛是真的有差很多嗎

undefined

昨晚跟朋友在Facebook的對話,拿來創作一下,它真的想笑死我,哈哈哈

Instagram,連結網址:

https://www.instagram.com/p/BQrXGE4jazp/

#幹嗎
#幹嘛
#無聊
#廢文

 

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

104創建教室,如來不思議

undefined

公開教室,連結網址:

https://clazzrooms.com/classroom/room/96823836460192059

 

, ,

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

2017-02-19(日):免費參加!第一屆ifan99愛粉絲春久音樂節

undefined

連結網址:

https://www.instagram.com/p/BQhElnvjuLm/
 

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

Instagram,2nd day,在蓮師財神現代宮殿跟家綾合照,歡迎大家一起來共修喔!

undefined

連結網址:

https://www.instagram.com/p/BQfzivjjbhH/

,

mikejohn 發表在 痞客邦 PIXNET 留言(0) 人氣()

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼