【#程式教學】凡走過必留下痕跡⭕ 「網路爬蟲」是什麼?
「凡走過必留下痕跡,你逃不過我的手掌心!」
欸?這根本就是網路爬蟲的代名詞呀!
🗣今天來分享從網路獲取資料的技術:
👉🏻「網路爬蟲」
👉🏻英文稱做Web Crawler or Web Scraping,
在抓取網頁資訊、整理資料時,
最簡單的方法:就是一筆一筆複製貼上,假如有上百筆、上千筆,
反覆的複製貼上,真的會有種錯覺
「我是誰我在哪我在幹嘛🥴」
現在,你不用再當機器人🤖
對於重複的動作,程式能有效率的幫我們處理掉,釋出更多的時間用在其他工作上
「網路爬蟲」就是解決這個問題的好幫手⭕
爬蟲是一個抓取網頁的程序,
從一個網頁連結到另一個然後不斷擴張,幾個大型搜尋引擎都是善用網路爬蟲的程式設計!
爬蟲可以做到:爬文字,並且篩選特定的範圍;爬圖片,單張及全(特定)範圍螢幕截圖。
✔只要分析完網頁的結構,將你要的資料抓出來,就可以套用在所有相同結構的網頁,剩下的就交給程式去處理啦✊
484很方便🥰
想知道更多?
【歡迎追蹤Johntool-工具王阿璋 @johntooltw ↓↓↓】
facebook►
https://www.facebook.com/JohntoolTW
instagram►
https://www.instagram.com/johntooltw
收到更多 #程式教學 #不務正業工程師 系列!
#網路爬蟲 #爬蟲 #程式 #程式語言 #工程師
#Python #code #coding #coder #coderlife #codinglife #codeismylife #crawler #scrapy #scrapying #數據 #大數據 #data
#programming #學習 #study #student #分享 #share #Johntool #工具王阿璋
「python抓取特定文字」的推薦目錄:
- 關於python抓取特定文字 在 Johntool-工具王阿璋 Facebook 的最佳解答
- 關於python抓取特定文字 在 問題]list中擷取特定文字- 看板Python - 批踢踢實業坊 的評價
- 關於python抓取特定文字 在 【個人用途記錄】Python 爬蟲- 抓取及解析HTML 網頁資料 的評價
- 關於python抓取特定文字 在 Python 如何實現並行查找關鍵字所在的行 - GitHub 的評價
- 關於python抓取特定文字 在 問題]list中擷取特定文字- 看板Python - Mo PTT 鄉公所 的評價
- 關於python抓取特定文字 在 如何讀取PDF 檔中的文字資料?#Python資料科學實作小技巧 的評價
- 關於python抓取特定文字 在 實作Python爬蟲PTT八卦版(Cookie操作&連續頁 ... - YC科技生活 的評價
python抓取特定文字 在 【個人用途記錄】Python 爬蟲- 抓取及解析HTML 網頁資料 的推薦與評價
進階版三(highlight 特定文字). python. from bs4 import BeautifulSoup from ... ... <看更多>
python抓取特定文字 在 Python 如何實現並行查找關鍵字所在的行 - GitHub 的推薦與評價
Contribute to dokelung/Python-QA development by creating an account on GitHub. ... 首先一個很大的問題是 readlines() ,這個方法會一口氣讀取file objects 中的 ... ... <看更多>
python抓取特定文字 在 問題]list中擷取特定文字- 看板Python - 批踢踢實業坊 的推薦與評價
各位前輩好,小弟不才
最近自學python一個多月了
目前是玩爬蟲居多
因為最近爬到一個網域
分頁的格式都沒有規律
所以把文字匯入到list中
然後在擷取關鍵字
但因為index是必須完全符合才能抓到
我的問題是
比如我要抓 (費用)NT5,000
但我已經盡力篩選tag
清單輸出會像是
[‘XXXX’, ‘這門課(費用)NT5,000 目前優惠’, ‘AAAA’, .......]
我應該如何擷取
謝謝前輩學長姐指教
—我是補充
本身非什麼資訊相關科系,
所以也是第一次自學語言
想說用爬蟲來幫我找課程(也順便練習python),說不定有機會可以去上上
就剛好看的這個網站
https://ewda.tw/
中華民國職工福利發展協會
https://ewda.tw/modules/ewda_action/action.php?asn=3978
https://ewda.tw/modules/ewda_action/action.php?asn=3999
像這類型的分頁
不同分頁下抓費用沒問題
但是抓老師姓名就一直找不到共通解
目前是使用papple大提示的join()
再用位移值來抓字
暫時解決「能一次套用在不同分頁」擷取老師姓名
但假設老師姓名如果是兩個字或四個字
位移值就會失效
這樣是不是就只能使用re來判別呢
註:目前只會使用BS來解析,沒有要伸手要code,因為這樣我也不會進步,所以算是請教
一些提示,畢竟有時候google也不知道使用什麼關鍵字...
先謝謝各位熱心的前輩
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.247.32.41
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1546562863.A.4E1.html
前輩們好,我忘記打清楚一點
就是這些分頁沒規則性,但(費用)(資訊)
這類的名稱字串是都會出現的
所以我希望能用一個方式來抓到所有分頁的這類名稱字串
所以只能用正規表達式就是了?
以上
謝謝
※ 編輯: Niseel (27.247.32.41), 01/04/2019 09:13:57
因為目前困擾的就是我要的名詞,前後都有多餘的string
※ 編輯: Niseel (27.247.32.41), 01/04/2019 12:40:32
※ 編輯: Niseel (39.10.35.241), 01/05/2019 18:13:10
※ 編輯: Niseel (39.10.35.241), 01/05/2019 18:13:58
※ 編輯: Niseel (39.10.35.241), 01/05/2019 18:16:49
※ 編輯: Niseel (39.10.35.241), 01/05/2019 18:21:32
,
覺得做出來好像拯救世界一樣爽XD
※ 編輯: Niseel (39.10.35.241), 01/07/2019 21:13:33
※ 編輯: Niseel (39.10.35.241), 01/07/2019 21:14:01
※ 編輯: Niseel (39.10.35.241), 01/07/2019 21:14:32
... <看更多>