本篇文章是 Netflix 的內部架構技術分享文,本篇文章要探討的是當 Netflix 內部大量採用 Google Drives(Sheets, DDocs, Slides...etc)進行檔案分享時所遇到的問題,以及 Netflix 是如何解決這些問題的。
問題: 對 Netflix 來說,由於下列兩個理由,導致目前 Google Drive 上大概有兩千萬的檔案
1. Netflix Studio 的合作夥伴大量使用 Google Service 來傳輸資料
2. 資料科學家需要將資料複製回本地的 Data 倉庫進行分析。
Netflix 內部為了方便存取這些資料,透過程式化的方式透過 Google API 來存取這些大量成長的資料,然而這樣的方式卻導致了兩個很麻煩的問題
1. 應用程式開發者與資料科學家必須要各自維護存取 Google 服務的帳號密碼,同時很多程式碼會大量的被重複開發。
2. 從可觀測性系統來說,到底有哪些檔案資料從 Google Drive 與 Data 倉庫移動是很不清楚的。
Netflix 為了解決這些問題,決定自行打造一個 Service Proxy 來處理所有流向 Google Services 的請求。透過這個中介層的服務,Google 服務認證的部分就可以有效率的於 Proxy 這層來處理掉,同時也能夠透過 Log 的方式來記錄到底哪些檔案目前正在移動,彌補了過往可觀性系統的缺失。
文中先介紹了關於 Google API 的架構,Netflix 內部原先大部分都透過 Python 或 Java 等程式語言來撰寫 Client 端的應用程式。為了讓整個 Proxy 能夠更有效的處理 Credential 的部分,Netflix 這邊還導入的內部工具(Metatron) 來管理這些資訊。
其他相關資訊還有
1. Proxy 基於 Java 開發
2. 使用 gRPC 來產生不同語言的 endpoints,統一由 Proxy 將請求轉為 HTTP 送往 Google 處理
此外,為了讓 Netflix 內部的所有人都可以很輕鬆的於 Google Drive 與 Data 倉庫間來更動資料, Netflix 為此打造一個可排程的 Job 來默默執行。文章後半段主要在介紹這個 Job 的架構與用法
對於全文有興趣的都歡迎閱讀~
https://netflixtechblog.medium.com/data-movement-for-google-services-at-netflix-9a77ca69f7c4
「兩個 google drive帳號間移動檔案」的推薦目錄:
兩個 google drive帳號間移動檔案 在 蘋果仁 Facebook 的最佳解答
無痛搬移 Google Drive 內的檔案
使用教育帳號的人快看