在公司數據建設過程中,經常會使用和提到指標和標簽,但是很多小夥伴對於兩者的區別確不能講清楚。實際上標簽與指標一樣,是理解數據的兩種方式,在賦能業務上,兩者同樣重要。接下來將結合自身的理解,從定義、應用場景、分類等多個方麵進行總結。
指標在定義上,主要是對數據的度量,而標簽則主要是人為的對數據進行概括性描述。
指標分類
1指標的定義現代管理學之父彼得ⷥ 提出用管理促進企業增長,他講過一句非常經典的話:“如果你不能衡量,那麽你就不能有效增長。”
那麽如何去衡量呢?
基於統一的標準去衡量業務,這個統一的標準就是指標,將業務通過可量化、可拆解的形式進行描述,通常是數值型數據。
例如:以淘寶網為例,GMV銷售額這個指標就是用來衡量交易金額
2標簽的定義基於原始數據進行語義化加工,人為的對業務含義進行概括性描述,標簽在數據結構中包含:標簽名稱及其值。標簽往往具備高度概括、相互獨立及可枚舉的特點。通常在畫像應用場景中出現,很形象的描述就是給用戶打標簽。
3舉例借用一個例子如:對小白進行打標,說他是個“大胖子”,就同時概括了身高172cm和體重150斤,而“長得跟李逵似的”,更是把五官、身材、氣質等特征都概括進來了。 指標:身高172cm,體重150斤 標簽:大胖子
Part3標簽與指標的應用場景對於指標的應用場景,常見的就是公司運營,如報表,主要用來做監測分析,是以業務為導向的。
對於標簽的應用場景,更多的是畫像應用,通過對實體(用戶、商品、帖子、設備等)的標注、刻畫、特征提取和分類來劃分群體,以應用場景為導向的,跟隨業務需求變動。
通常在實際使用中,標簽數據的一部分來源就是基於指標進行加工產生的,也可以理解成標簽數據是指標的業務化、語義化。
例如:
指標:用戶最近30天活躍次數,來打標流失用戶這個標簽 指標:用戶最近7天消費次數及金額,來打標高價值用戶
所以,標簽體係的建設是非常重要的,不但能豐富數據分析的素材,更能直接推動分析成果落地。
Part4標簽與指標的分類4指標的分類指標的分類主要有加工邏輯分類、業務分類(主題域)、層級等幾種,實際使用中常常也聯合起來進行分類。
加工邏輯分類原子指標: 用於統計業務活動中某一業務狀況的數值,主要是用於明確業務的統計口徑和計算邏輯。 例如,用戶充值,原子指標為充值金額。
派生指標:由原子指標、修飾詞、時間周期三大要素構成,用於統計目標指標在具體時間、維度、業務條件下的數值表現,反映某一業務活動的業務狀況。例如,統計最近一天_用戶的充值金額
衍生指標:基於原子指標組合構建的,例如,arpu人均充值金額 = 充值金額 / 充值用戶數
業務分類一般是對某一類業務的抽象組合,在數倉可以理解成主題域或業務域。
例如:充值、消費等歸類於交易域,例如發帖、評論等歸於社交域。
5標簽的分類標簽的分類主要有加工邏輯分類、重要程度等幾種,實際使用中常常也聯合起來進行分類。
基於加工方式的標簽分類基礎(統計類)標簽:
是最為基礎和常見的標簽,例如:性別、年齡、城市、星座、近7日活躍時長、近7日活躍天數、近7日活躍次數、曆史累計充值金額、ltv1等
規則類標簽:
該類標簽基於用戶行為及確定的規則產生。例如,對應用內“高價值用戶”這一口徑的定義為“曆史累計消費金額≥1萬元”。
算法標簽:
標簽通過算法的機器學習挖掘產生,用於對用戶的某些屬性或某些行為進行預測判斷。例如,根據一個用戶的行為習慣判斷該用戶是男性還是女性、根據一個用戶的社交習慣判斷其對某帖子及主播的偏好程度。該類標簽需要通過算法挖掘產生。
在項目工程實踐中,一般統計類和規則類的標簽即可以滿足應用需求,在開發中占有較大比例。機器學習挖掘類標簽多用於預測場景,如判斷用戶性別、用戶購買商品偏好、用戶流失意向等。一般地,算法的機器學習標簽開發周期較長,開發成本較高,因此其開發所占比例較小。
總結上麵就是對指標和標簽的一些理解,簡言之指標更客觀,注重事實,而標簽則是對數據的描述,標簽也是同樣重要的。因為除了精準以外,標簽數據業務化,更接近於日常,更易理解。
本文到此結束,希望對大家有所幫助呢。
发布评论