使用此映像檔建立的 Jupyterlab 開發環境可直接使用所有 Lab 產品
協助建立設定檔與範例程式碼,降低使用者門檻
讓使用者建立的 Jupyterlab 開發環境可連線到 既有的 Beaver Hadoop cluster 執行工作

在一個分析案中,定義好分析問題之後,經常需要花費分析師們大量的時間來進行資料收集 & 整理。尤其在國泰這樣資料量豐富且龐大的環境中,快速的資料收集就顯得更為重要。 DataStudio 能根據使用者定義好的 Label Table,快速的從指定的資料庫中找出最適合本次建模分析的特徵, 讓分析師們能有更多的時間與業務單位溝通、了解需求。
DataStudio 運用了 Spark 技術,在資料海中,先計算了許多統計指標,加速接續的特徵重要度計算。有趣的是,這些統計指標是可以共享的,在各個專案中互相參照,省下更多時間。
如果您好奇 DataStudio 的特徵重要度的演算法,歡迎參照我們的使用者文件喔!
Python: 3.6+
Spark: 2.4.0+
DataStudio 現在有 UI 可以省去艱澀難懂的程式碼,讓您輕鬆完成資料搜尋的設定,您可以剪下貼上自動產生程式碼,就可以運行 DataStudio 的程序了
對於常用 Python 的分析師來說,您也可以直接使用 DataStudio Library,透過 pip install (行內專用)來幫助您, 透過 DataStudio API 您可以使用完整的 DataStudio 的功能喔
過往單一產品建模需要三個月至半年以上的開發時間,在通路導航專案上開發三個通路總共 24 項產品本需一年以上的開發時間,但透過 DataStudio 在通路導航專案上的應用,我們加速了特徵選取的時間,最後僅花兩個月的時間完成模型建模與驗證,且獲得令人滿意的成效。
為了推動銀行各項業務,要從巨量顧客資料中發掘客戶屬性標籤,然而因為資料過於龐大,標籤繁多,若人工建立標籤模型,需要數年才能完成;因此使用了 DataStudio,自動化在大量的客戶資料表中搜尋,由領域專家調校細部參數,最後,成功在六個月完成數十個標籤模型。