提供所有 Lab 產品的映像檔

使用此映像檔建立的 Jupyterlab 開發環境可直接使用所有 Lab 產品

提供 Lab 產品 UI

協助建立設定檔與範例程式碼,降低使用者門檻

讓開發環境快速連線

讓使用者建立的 Jupyterlab 開發環境可連線到 既有的 Beaver Hadoop cluster 執行工作

01
Introduction

產品介紹

DataStudio主要流程示意圖

DataStudio 自動根據您的標籤資料,在大量資料表中找尋有用的特徵,加速資料分析的流程,減少專案的人力配置

在一個分析案中,定義好分析問題之後,經常需要花費分析師們大量的時間來進行資料收集 & 整理。尤其在國泰這樣資料量豐富且龐大的環境中,快速的資料收集就顯得更為重要。 DataStudio 能根據使用者定義好的 Label Table,快速的從指定的資料庫中找出最適合本次建模分析的特徵, 讓分析師們能有更多的時間與業務單位溝通、了解需求。

完整 DataStudio 流程圖

DataStudio 運用了 Spark 技術,在資料海中,先計算了許多統計指標,加速接續的特徵重要度計算。有趣的是,這些統計指標是可以共享的,在各個專案中互相參照,省下更多時間。

如果您好奇 DataStudio 的特徵重要度的演算法,歡迎參照我們的使用者文件喔!

02
Installation

安裝方式

DataStudio 是國泰集團內部使用的 Python Package,請聯絡我們以取得檔案與安裝方法。
環境需求

Python: 3.6+

Spark: 2.4.0+

03
Features

主要功能

圖形化介面自動產生程式碼

DataStudio 現在有 UI 可以省去艱澀難懂的程式碼,讓您輕鬆完成資料搜尋的設定,您可以剪下貼上自動產生程式碼,就可以運行 DataStudio 的程序了

TB UI
建立新專案
TB UI
Spark 資源
TB UI
標籤與彙整資料
TB UI
搜尋範圍
TB UI
自動產出 DataStudio 程式碼 - 可以剪下貼上到 Jupyter Notebook 或是下載到桌面

簡單易用的 Python API

對於常用 Python 的分析師來說,您也可以直接使用 DataStudio Library,透過 pip install (行內專用)來幫助您, 透過 DataStudio API 您可以使用完整的 DataStudio 的功能喔

04
Success Story

成功案例

國泰世華銀行 - 通路導航

過往單一產品建模需要三個月至半年以上的開發時間,在通路導航專案上開發三個通路總共 24 項產品本需一年以上的開發時間,但透過 DataStudio 在通路導航專案上的應用,我們加速了特徵選取的時間,最後僅花兩個月的時間完成模型建模與驗證,且獲得令人滿意的成效。

國泰世華銀行 - MY 客群 2.0

為了推動銀行各項業務,要從巨量顧客資料中發掘客戶屬性標籤,然而因為資料過於龐大,標籤繁多,若人工建立標籤模型,需要數年才能完成;因此使用了 DataStudio,自動化在大量的客戶資料表中搜尋,由領域專家調校細部參數,最後,成功在六個月完成數十個標籤模型

05
User Guide