AI大數據產品經理至少要會以下三個方面的技能。
第一、懂數據
懂數據首先是懂
1)數據工程的內容
例如:采集、存儲、清洗、分析、可視化。
其次是懂
2)數據庫的基本概念
數據庫和數據表,CURD操作:Create、Update、Read、Delete,關系型數據庫,非關系型數據庫等。
3)數據的結構
例如:地鐵數據,靜態數據:線路、站點(不一定有時間戳,更新慢),動態數據:刷卡記錄(必有時間戳,不斷產生),數據存放有一定的規則。
4)數據的類型格式
TXT:純文本
CSV:逗號分隔值
JSON:鍵值對
SQL:數據庫文件等
第二、懂AI機器學習領域
AI的得以突破發展一方面是因為數據量的爆發式增長,另外一方面得益于機器學習,尤其是深度學習算法的發展。
1)什么是機器學習
研究如何通過計算的手段,利用經驗來改善系統自身的性能,通俗來講,讓代碼學著干活即為機器學習,而深度學習是機器學習的特例。
2)機器學習的種類
有監督學習:提供標簽,分類、回歸
無監督學習:無標簽,聚類
增強學習:也稱強化學習,馬爾科夫決策過程(Markov Decision Processes,MDP)
主動學習:邊學習邊標注
遷移學習:從一個域(Domain)遷移(Transfer)到另一個域
集成學習:Ensemble,三個臭皮匠賽個諸葛亮,Boosting和Bagging
3)機器學習兩大痛點
維度災難:數據量和特征數
過擬合:模型泛化能力
4)機器學習的流程
預處理:數據重塑、缺失值處理(補全、統計為缺失特征)
特征工程:特征沒做好,參數調到老。在已有的特征上生成新的特征,數值、類別
特征選擇、降維:基于MIC、Pearson相關系數、正則化方法、模型,PCA、tSNE
訓練模型、調參:單模型,多模型融合,集成
評估模型:正確率(Acurracy)、準確值(Pecision)、召回值(Recall)、F值、AUC
懂以上機器學習的相關內容視為入門了AI大數據產品經理。
第三、懂數據且能進行AI產品化應用以構建機器學習用戶畫像產品為例
什么叫懂數據處理且能夠進行AI產品化應用呢,下面筆者LineLian一構建用戶畫像實現大數據機器學習推薦為例來講綜合運用數據、算法和算力的步驟。
(第一步):建模
1)獲取原始數據。例如用到的數據有用戶訪問系統的行為日志和用戶的基本屬性,通過采集日志數據,得到用戶的行為信息;
2)對數據進行預處理,挖掘出事實標簽。對用戶數據進行過濾、清洗、簡化表示,從用戶的基本屬性信息可以得到用戶的編號、等級、名稱、第一次登錄時間等,這些信息屬于事實標簽;
3)分析用戶行為信息,構建用戶畫像的模型標簽。通過對用戶的行為進行分析,得到用戶訪問頁面和操作的規律,構建出用戶的行為模型;
4)通過模型標簽進行預測,完善用戶畫像。根據用戶的行為模型可以預測出用戶的操作行為。
![[AI]AI大數據產品經理必懂的基礎技術](http://www.yalin365.com/wp-content/uploads/2020/09/46df74e52a3c4a6eb8a2fb9dd806cbb0.jpg?x83982)
![[AI]AI大數據產品經理必懂的基礎技術](http://www.yalin365.com/wp-content/uploads/2019/09/lazy-480x300.png?x83982)
(第二步):多維度刻畫用戶畫像
1):自然屬性,比如:用戶注冊時填寫的姓名、性別、年齡、郵箱、電話、職業等。不同屬性用戶感興趣的點不同,標簽一般比較穩定。
2):興趣屬性,行為偏好信息,不同時間偏好不同,隨時而變!偏好標簽挖掘算法有TF-IDF和BM25算法等
3):地理信息,移動軌跡信息,不同區域用戶訪問不同服務器
4):主機IP、MAC地址、不同瀏覽器等,通過IP地址可以找到用戶所在的區域
5):隱含屬性指從用戶的基本信息、行為信息等數據中發掘出用戶信息中隱含的規律或偏好。例如從用戶上線的頻率計算出用戶的活躍等級,活躍等級可以反映出用戶對系統的粘性。
(第三步):標簽
MECE(Mutually Exclusive Collective Exhaustive)原則,即標簽需要彼此獨立且詳盡無遺。
(1) 用戶需求和使用場景會不斷的更新,所以標簽體系是一個不斷完善的過程,不可能一次性建立完成;
(2) 不同領域的用戶需求和業務場景不同,用戶畫像的標簽系統也不同。關鍵是要從不同層面更透徹地分析特定領域用戶的決策行為。建立標簽系統時,應根據具體業務情況進行切實分析;
(3) 根據具體需求合理劃分標簽的體系結構,一般需要讓標簽體系有結構框架,呈現出一定的層級關系便于標簽管理,也可以增加標簽間的聯系。
標簽體系結構三種:結構化、半結構化、非結構化
事實標簽和模型標簽舉例 對標題按體系劃分
![[AI]AI大數據產品經理必懂的基礎技術](http://www.yalin365.com/wp-content/uploads/2020/09/f29505957f9540459eed099651efdcbf.png?x83982)
![[AI]AI大數據產品經理必懂的基礎技術](http://www.yalin365.com/wp-content/uploads/2019/09/lazy-480x300.png?x83982)
(第四步)映射用戶畫像
數據-用戶標簽映射
用戶畫像方法是數據-用戶標簽映射方法,它是以數據來驅動用戶畫像的生成。
![[AI]AI大數據產品經理必懂的基礎技術](http://www.yalin365.com/wp-content/uploads/2020/09/895d81443cf848f7bb4ef81a56d185de.jpg?x83982)
![[AI]AI大數據產品經理必懂的基礎技術](http://www.yalin365.com/wp-content/uploads/2019/09/lazy-480x300.png?x83982)
(第五步) : 評估模型
產品經理怎么評估用戶畫像模型好壞呢?建議從以下幾個方面
用戶畫像評估指標包括:準確性、覆蓋范圍、及時性、可解釋性和可擴展性等。
(第六步)數據可視化
與用戶交互過程可視化,數據可視化不僅是統計圖表,基本上可以通過圖形顯示的任何數據、文本、原理、邏輯和法則都可以稱為數據可視化。數據可視化具有交互、多維和可見特征。用戶畫像可視化后圖如下所示:
![[AI]AI大數據產品經理必懂的基礎技術](http://www.yalin365.com/wp-content/uploads/2020/09/d665ea04eb95472581b5f6a3e09a1c7f.jpg?x83982)
![[AI]AI大數據產品經理必懂的基礎技術](http://www.yalin365.com/wp-content/uploads/2019/09/lazy-480x300.png?x83982)
(AI逆潮增長)
版權聲明:本文內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容, 請發送郵件至 舉報,一經查實,本站將立刻刪除。