DataStudio - 大規模自動化特徵搜尋工具 by 資料科學實驗室

DataStudio

One tool for all tables. All features in one table.

將 Lab 產品與開源專案 Kubeflow 做整合

Powered by Lab

了解運作方式

提供所有 Lab 產品的映像檔

使用此映像檔建立的 Jupyterlab 開發環境可直接使用所有 Lab 產品

提供 Lab 產品 UI

協助建立設定檔與範例程式碼，降低使用者門檻

讓開發環境快速連線

讓使用者建立的 Jupyterlab 開發環境可連線到既有的 Beaver Hadoop cluster 執行工作

01

Introduction

產品介紹

DataStudio主要流程示意圖

DataStudio 自動根據您的標籤資料，在大量資料表中找尋有用的特徵，加速資料分析的流程，減少專案的人力配置

在一個分析案中，定義好分析問題之後，經常需要花費分析師們大量的時間來進行資料收集 & 整理。尤其在國泰這樣資料量豐富且龐大的環境中，快速的資料收集就顯得更為重要。 DataStudio 能根據使用者定義好的 Label Table，快速的從指定的資料庫中找出最適合本次建模分析的特徵，讓分析師們能有更多的時間與業務單位溝通、了解需求。

完整 DataStudio 流程圖

DataStudio 運用了 Spark 技術，在資料海中，先計算了許多統計指標，加速接續的特徵重要度計算。有趣的是，這些統計指標是可以共享的，在各個專案中互相參照，省下更多時間。

如果您好奇 DataStudio 的特徵重要度的演算法，歡迎參照我們的使用者文件喔！

02

Installation

安裝方式

DataStudio 是國泰集團內部使用的 Python Package，請聯絡我們以取得檔案與安裝方法。

詢問我們安裝檔案

環境需求

Python: 3.6+

Spark: 2.4.0+

03

Features

主要功能

圖形化介面自動產生程式碼

DataStudio 現在有 UI 可以省去艱澀難懂的程式碼，讓您輕鬆完成資料搜尋的設定，您可以剪下貼上自動產生程式碼，就可以運行 DataStudio 的程序了

TB UI — 建立新專案

TB UI — Spark 資源

TB UI — 標籤與彙整資料

TB UI — 搜尋範圍

TB UI — 自動產出 DataStudio 程式碼 - 可以剪下貼上到 Jupyter Notebook 或是下載到桌面

簡單易用的 Python API

對於常用 Python 的分析師來說，您也可以直接使用 DataStudio Library，透過 pip install （行內專用）來幫助您，透過 DataStudio API 您可以使用完整的 DataStudio 的功能喔

04

Success Story

成功案例

國泰世華銀行 - 通路導航

過往單一產品建模需要三個月至半年以上的開發時間，在通路導航專案上開發三個通路總共 24 項產品本需一年以上的開發時間，但透過 DataStudio 在通路導航專案上的應用，我們加速了特徵選取的時間，最後僅花兩個月的時間完成模型建模與驗證，且獲得令人滿意的成效。

國泰世華銀行 - MY 客群 2.0

為了推動銀行各項業務，要從巨量顧客資料中發掘客戶屬性標籤，然而因為資料過於龐大，標籤繁多，若人工建立標籤模型，需要數年才能完成；因此使用了 DataStudio，自動化在大量的客戶資料表中搜尋，由領域專家調校細部參數，最後，成功在六個月完成數十個標籤模型。

05

User Guide

閱讀完整的線上使用手冊也可以下載： 1.0 使用文件