打造智慧數據湖,Google Cloud 今天推出三項新服務讓資料在雲更聰明
2021/05/27 INSIDE 硬塞的網路趨勢觀察
Google Cloud 在今天舉辦的 Google Data Cloud Summit 上,發布三項全新解決方案:Dataplex、Datastream 和 Analytics Hub Beta 版,將涵蓋旗下的資料庫和資料分析產品組合,為企業提供一個整合式資料平台,協助企業打破資料孤島。
評論
Google Cloud 在今天舉辦的 Google Data Cloud Summit 上,發布三項全新解決方案:Dataplex、Datastream 和 Analytics Hub Beta 版,將涵蓋旗下的資料庫和資料分析產品組合,為企業提供一個整合式資料平台,協助企業打破資料孤島,安全地預測業務成果並賦予使用者能力,在現今不斷變化的數位環境中即時制定明智的決策。
「Gartner 近期的問卷調查結果顯示,企業預估每年在品質不甚理想的資料上平均花費 $1,280 萬美元。」 因為資料散布在多個雲端和地端部署環境中的資料庫、資料湖泊、資料倉儲和資料市集內,企業除了要設法集中控管及管理應用程式,更需要即時整合資料來改善決策,加快創新腳步及提升客戶體驗。
Google Cloud 資料庫、資料分析及 Looker 商業智慧平台總經理暨副總裁 Gerrit Kazmaier 說明,企業須把資料視為具備將所有相關業務面向整合為一的能力。如今所有產業紛紛轉換為以數位化為主的業務型態,因為他們明白資料不但是創造價值的要素,同時也是推動數位轉型的關鍵。
透過運用 Google Cloud 的資料平台,客戶現在將能採用全方位且涵蓋完整資料生命週期的資料雲端方案,從業務執行系統到可進行未來預測和自動化作業的 AI 與機器學習工具等均包含在內。
Datastream-為客戶提供即時資料複製功能:目前提供 Beta 版體驗的 Datastream 提供全新的無伺服器異動資料擷取 (CDC) 和複製服務,讓客戶可以從 Oracle 和 MySQL 資料庫將資料串流即時擷取至 Google Cloud 服務,例如 BigQuery、可於 PostgreSQL 上執行的 Cloud SQL、Google Cloud Storage 和 Cloud Spanner。
企業可運用這項解決方案強化即時性數據分析功能、資料庫的複製速度以及事件驅動架構等。率先採用此方案的客戶 Schnuck Markets, Inc.運用 Datastream 簡化了架構,而將 Oracle 資料複製到 BigQuery 和 Cloud SQL 也不再會延遲數小時之久。
Analytics Hub-提高資料共用安全與易用性:Analytics Hub 可為企業創造安全且即時的資料交換服務,借助 Analytics Hub,企業可以在不論組織的內外部,安全地共享數據和洞察,包括動態儀表板和機器學習模型。
Analytics Hub 協助企業整合其數據資產,如將 Google 獨有數據、產業數據和公開數據整合一起。Analytics Hub 建立於 BigQuery 現行且普及的共享功能基礎上,目前已經使數千家企業透過數據分析進行革新,並透過不僅是單純共享數據的方法,來加快洞察的取得。
Dataplex-協助企業簡化資料管理作業:目前提供 Beta 版體驗的 Dataplex 是一種智慧資料網路架構,可提供單一整合式的分析體驗,能將 Google Cloud 和開放原始碼結合在一起,使企業能夠快速整理、保護、整合及分析其數據。
自動化的資料品質可讓數據資料學家和分析師利用自選工具確保資料的一致性,不須移動或複製資料即可統整並管理資料。Google 提供傑出的 AI 和機器學習功能,讓企業能夠利用內建的智慧資料來縮短處理繁複基礎架構的時間,並將更多心力轉而投入於發掘資料價值,以帶來更多業務成果。身為 Dataplex 早期客戶,Equifax 與 Google 合作致力將 Dataplex 納入自己的核心分析平台,不但簡化了工作負載,還建立了所有內部分析資料都適用的單一指令控管及管理平台。
在資料雲端高峰會舉辦期間,Google Cloud 也發表了資料庫和數據分析產品組合方面的其他最新消息:
基於對多雲端的策略性承諾,Google 陸續推出分別適用於 Microsoft Azure 的 BigQuery Omni Beta 版和 Looker 商業智慧平台正式版,藉此協助客戶取得跨雲端環境的關鍵資料深入分析結果。繼去年發表適用於 AWS 的 BigQuery Omni 後,這次發表的最新消息更延續了市場對此技術的展望。
BigQuery ML 異常偵測 可協助客戶透過使用 BigQuery 的內建機器學習功能,以更輕鬆的方式檢測異常資料模式。目前許多客戶將這項技術運用於多種用途,包括銀行詐欺偵測和生產製造不良原因分析。
Dataflow 為客戶提供了具備成本效益的快速串流分析解決方案。而預計於第三季推出的 Dataflow Prime 將提供業界領先的自動垂直擴充和數據管道正確配置技術,為客戶最大幅度地降低整體擁有成本。此外,Dataflow Prime 更內建了 AI 和機器學習技術,可以為客戶提供串流預測功能,例如時間序列分析、可主動識別瓶頸的智慧診斷功能,以及可提高使用率的自動微調功能。
Google 也將全代管關聯資料庫 Cloud Spanner 的入門價格降低 90%,連同即將推出的精細個體規模調整功能 (granular instance sizing) ,將同樣提供無限制的空間規模與99.999%的可用性,用以支援要求最苛刻的應用程式運作。BigQuery 與 Spanner 的整合功能也即將推出,可讓使用者透過 BigQuery 查詢 Spanner 中的交易資料,以便提供更豐富且即時的深入分析結果。而 Spanner 新增的 Key Visualizer 功能(目前為 Beta 版本),可提供互動式監控功能,方便開發人員迅速識別使用模式。此外,Cloud Bigtable 更具備可達 99.999%(5 9s) SLA 的讀取和寫入可用性。
資料來源:https://www.inside.com.tw/article/23648-google-data-cloud-summit
同時也有16部Youtube影片,追蹤數超過4萬的網紅吳老師教學部落格,也在其Youtube影片中提到,[初階]從VBA的自動化到PYTHON網路爬蟲應用5(全省郵局地址合併&用os的walk方法巡覽檔名&將 all再分割回25個檔案&字典型態處理與學生成績&SQLite新增資料庫與資料表與紀錄) 01_重點回顧與會員資料寫入資料庫 02_會員資料讀取並切割為串列 03_將資料寫入資料庫(建資料表...
sql型態轉換 在 Kewang 的資訊進化論 Facebook 的精選貼文
繼之前分享如何實作「窮人版 ELK」之後,再來分享一下這個服務裡面的 DSL 是如何實作的。會想到要為這個服務做 DSL,主要是小編雖然已經把 Impala 產生的資料利用一些工具轉成 PNG 圖檔,但動作太繁雜,所以想把這些過程用 DSL 來表示,工程師只要會下 SQL 就能把資料轉成 PNG 圖檔了。
其實對於 DSL,有在 follow 粉絲頁的朋友應該有注意到,小編很久以前就有一個屬意的方案了,那就是 MSON。它結合了 Markdown 以及 JSON,所以不只人類易讀,機器也易讀。只不過 MSON Parser 一直都是殘缺不全,所以沒辦法讓小編完整的實作 DSL,這個方案就被捨棄了。
另一個也很適合拿來做 DSL 的就是 YAML 了,個人覺得跟 MSON 比起來易讀性稍低一點,但已經是目前還不錯的實作方式,所以就以這個來做為「窮人版 ELK」的 DSL 實作方案。
DSL 已經把所有轉換的細節都隱藏起來了,工程師只要先自己在 Impala 上撰寫正確的 SQL 指令,其他動作只要把必要欄位填完就可以了。下面是必要欄位的說明:
* SQL:要在 Impala 裡面執行的 SQL 指令,其中有用 ":VAR" 包起來的變數名稱,表示是從 INPUT 欄位取得
* CHART:highcharts 的圖表格式,DSL 目前支援 column (長條圖)、pie (圓餅圖)
* INPUT:這是一個陣列,表示這個變數名稱是從外部操作時取得,另外後面的 "date" 為資料型態,目前支援的類型為 HTML 的 input[type]
* OUTPUT:產生 PNG 圖檔時的欄位資訊,如 X 軸是從 Impala 的哪個欄位取得,顯示在圖表上的名稱要叫什麼
至於轉換細節又是另一件麻煩事,將 DSL 轉成最後的圖檔又經過了不少步驟:
1. js-yaml:雖然說 YAML 很適合拿來做 DSL,但 JSON 還是目前大家最常用的格式。所以當然要先把 YAML 轉成 JSON 這樣才好操作 XD
2. jq:轉換過程中 jq 幫了小編很大的忙,官網寫著這是一套輕量且靈活的命令列 JSON 處理工具。無論要對 JSON 取 key、取 value、取 length、做 group by、做 sort by、if-else、while-loop 都可以,就是很強大。所以小編就拿這個將 YAML 轉換完的 JSON,用一堆奇怪的語法把資料轉換成功。
其實在轉換過程最麻煩的不是操作 JSON,最麻煩的在小編不太會寫 bash script 啊!!!尤其是一堆變數轉換的過程,一下子用 ${},一下子用 $(),還有 ${[$k]} 的這種寫法,看了頭好痛 Orz
最後把 jq 轉完的資料丟給前一篇提到的那些工具,就可以完美把 PNG 圖檔產生出來了,第二篇的「窮人版 ELK」文章到此也就結束了。其實這個專案還有另一個跟圖表無關的功能,那就是即時觀看 API 發送歷程,如果有第三篇的話再來分享一下好了。
* 如何實作「窮人版 ELK」:https://www.facebook.com/kewang.information/posts/2085843121692051
* 如何使用 MSON 的幾個方向:https://www.facebook.com/kewang.information/posts/1940647046211660
* jq:https://stedolan.github.io/jq
#mson #dsl #yaml #json #jq
sql型態轉換 在 吳老師教學部落格 Youtube 的精選貼文
[初階]從VBA的自動化到PYTHON網路爬蟲應用5(全省郵局地址合併&用os的walk方法巡覽檔名&將
all再分割回25個檔案&字典型態處理與學生成績&SQLite新增資料庫與資料表與紀錄)
01_重點回顧與會員資料寫入資料庫
02_會員資料讀取並切割為串列
03_將資料寫入資料庫(建資料表與欄位)
04_SQL刪除資料表與查詢資料
05_編號查詢與關鍵字查詢
06_日期查詢與SQL相關語法
07_將全省郵局地址三重寫入到資料庫
08_全省郵局全部寫入到資料庫
完整影音
http://goo.gl/aQTMFS
教學論壇(之後課程會放論壇上課學員請自行加入):
https://groups.google.com/forum/#!forum/tcfst_python_2020_3
懶人包:
EXCEL函數與VBA http://terry28853669.pixnet.net/blog/category/list/1384521
EXCEL VBA自動化教學 http://terry28853669.pixnet.net/blog/category/list/1384524
[初階]從VBA的自動化到PYTHON網路爬蟲應用
01 建置Python開發環境 3
02 基本語法與結構控制 3
03 迴圈敘述演示與資料結構及函式 3
04 檔案處理與SQLite資料庫處理 6
05 TQC+Python證照第1、2、3類:
基本程式設計與選擇敘述與迴圈敘述 12
06 TQC+Python證照第4、5類:
進階控制流程與函式(Function) 9
[進階]網頁資料擷取、分析與資料視覺化能力
07 網頁資料擷取與分析 3
09 實戰:處理 CSV 檔和 JSON 資料 3
10 實戰:PM2.5即時監測顯示器轉存資料庫 3
11 實戰:下載台銀外匯、下載YAHOO股市類股 3
12 實戰:下載威力彩開獎結果 3
13 TQC+Python 3網頁資料擷取與分析第1類:資料處理能力 3
14 TQC+Python 3第2類:網頁資料擷取與轉換 6
15 TQC+Python 3第3類:資料分析能力 6
16 TQC+Python 3第4類:資料視覺化能力 6
上課用書:
參考書目
Python初學特訓班(附250分鐘影音教學/範例程式)
作者: 鄧文淵/總監製, 文淵閣工作室/編著
出版社:碁峰 出版日期:2016/11/29
吳老師 109/7/24
EXCEL,VBA,Python,自強工業基金會,EXCEL,VBA,函數,程式設計,線上教學,PYTHON安裝環境,資料視覺化
sql型態轉換 在 吳老師教學部落格 Youtube 的最讚貼文
[初階]從VBA的自動化到PYTHON網路爬蟲應用5(全省郵局地址合併&用os的walk方法巡覽檔名&將
all再分割回25個檔案&字典型態處理與學生成績&SQLite新增資料庫與資料表與紀錄)
01_重點回顧與會員資料寫入資料庫
02_會員資料讀取並切割為串列
03_將資料寫入資料庫(建資料表與欄位)
04_SQL刪除資料表與查詢資料
05_編號查詢與關鍵字查詢
06_日期查詢與SQL相關語法
07_將全省郵局地址三重寫入到資料庫
08_全省郵局全部寫入到資料庫
完整影音
http://goo.gl/aQTMFS
教學論壇(之後課程會放論壇上課學員請自行加入):
https://groups.google.com/forum/#!forum/tcfst_python_2020_3
懶人包:
EXCEL函數與VBA http://terry28853669.pixnet.net/blog/category/list/1384521
EXCEL VBA自動化教學 http://terry28853669.pixnet.net/blog/category/list/1384524
[初階]從VBA的自動化到PYTHON網路爬蟲應用
01 建置Python開發環境 3
02 基本語法與結構控制 3
03 迴圈敘述演示與資料結構及函式 3
04 檔案處理與SQLite資料庫處理 6
05 TQC+Python證照第1、2、3類:
基本程式設計與選擇敘述與迴圈敘述 12
06 TQC+Python證照第4、5類:
進階控制流程與函式(Function) 9
[進階]網頁資料擷取、分析與資料視覺化能力
07 網頁資料擷取與分析 3
09 實戰:處理 CSV 檔和 JSON 資料 3
10 實戰:PM2.5即時監測顯示器轉存資料庫 3
11 實戰:下載台銀外匯、下載YAHOO股市類股 3
12 實戰:下載威力彩開獎結果 3
13 TQC+Python 3網頁資料擷取與分析第1類:資料處理能力 3
14 TQC+Python 3第2類:網頁資料擷取與轉換 6
15 TQC+Python 3第3類:資料分析能力 6
16 TQC+Python 3第4類:資料視覺化能力 6
上課用書:
參考書目
Python初學特訓班(附250分鐘影音教學/範例程式)
作者: 鄧文淵/總監製, 文淵閣工作室/編著
出版社:碁峰 出版日期:2016/11/29
吳老師 109/7/24
EXCEL,VBA,Python,自強工業基金會,EXCEL,VBA,函數,程式設計,線上教學,PYTHON安裝環境,資料視覺化
sql型態轉換 在 吳老師教學部落格 Youtube 的最讚貼文
[初階]從VBA的自動化到PYTHON網路爬蟲應用5(全省郵局地址合併&用os的walk方法巡覽檔名&將
all再分割回25個檔案&字典型態處理與學生成績&SQLite新增資料庫與資料表與紀錄)
01_重點回顧與會員資料寫入資料庫
02_會員資料讀取並切割為串列
03_將資料寫入資料庫(建資料表與欄位)
04_SQL刪除資料表與查詢資料
05_編號查詢與關鍵字查詢
06_日期查詢與SQL相關語法
07_將全省郵局地址三重寫入到資料庫
08_全省郵局全部寫入到資料庫
完整影音
http://goo.gl/aQTMFS
教學論壇(之後課程會放論壇上課學員請自行加入):
https://groups.google.com/forum/#!forum/tcfst_python_2020_3
懶人包:
EXCEL函數與VBA http://terry28853669.pixnet.net/blog/category/list/1384521
EXCEL VBA自動化教學 http://terry28853669.pixnet.net/blog/category/list/1384524
[初階]從VBA的自動化到PYTHON網路爬蟲應用
01 建置Python開發環境 3
02 基本語法與結構控制 3
03 迴圈敘述演示與資料結構及函式 3
04 檔案處理與SQLite資料庫處理 6
05 TQC+Python證照第1、2、3類:
基本程式設計與選擇敘述與迴圈敘述 12
06 TQC+Python證照第4、5類:
進階控制流程與函式(Function) 9
[進階]網頁資料擷取、分析與資料視覺化能力
07 網頁資料擷取與分析 3
09 實戰:處理 CSV 檔和 JSON 資料 3
10 實戰:PM2.5即時監測顯示器轉存資料庫 3
11 實戰:下載台銀外匯、下載YAHOO股市類股 3
12 實戰:下載威力彩開獎結果 3
13 TQC+Python 3網頁資料擷取與分析第1類:資料處理能力 3
14 TQC+Python 3第2類:網頁資料擷取與轉換 6
15 TQC+Python 3第3類:資料分析能力 6
16 TQC+Python 3第4類:資料視覺化能力 6
上課用書:
參考書目
Python初學特訓班(附250分鐘影音教學/範例程式)
作者: 鄧文淵/總監製, 文淵閣工作室/編著
出版社:碁峰 出版日期:2016/11/29
吳老師 109/7/24
EXCEL,VBA,Python,自強工業基金會,EXCEL,VBA,函數,程式設計,線上教學,PYTHON安裝環境,資料視覺化