国产精品成人一区二区三区夜夜夜_日干夜操_日韩久久综合_日日夜夜嫩草_999夜色精品网站_手机看片1204_17CC网黑料爆料一区二区三区_66夜色_免费AV电影在线观看_日韩天堂TV_精品不卡一区二区_九九日韩999_夜色桃花在线观看_在线观看视频精品一区_国产麻豆_91精品久久一区二区三区_91无码人妻五月天婷五月

物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊(cè)

一種基于智慧運(yùn)營(yíng)平臺(tái),將大數(shù)據(jù)技術(shù)和數(shù)據(jù)挖掘技術(shù)相結(jié)合

作者:資治通信
來(lái)源:RFID世界網(wǎng)
日期:2018-11-26 15:33:08
摘要:為減少用戶(hù)流失,提高用戶(hù)保有率,文章介紹一種基于智慧運(yùn)營(yíng)平臺(tái),將大數(shù)據(jù)技術(shù)和數(shù)據(jù)挖掘技術(shù)相結(jié)合,對(duì)電信客戶(hù)流失進(jìn)行預(yù)測(cè)的模型。該模型利用大數(shù)據(jù)技術(shù)處理用戶(hù)離網(wǎng)前的海量數(shù)據(jù)信息,分析流失用戶(hù)特征,建立用戶(hù)流失預(yù)測(cè),提前鎖定流失風(fēng)險(xiǎn)較高的用戶(hù),有針對(duì)性地制定維挽策略,精準(zhǔn)開(kāi)展維系挽留活動(dòng),能夠有效降低用戶(hù)離網(wǎng)率。

  引言

  隨著移動(dòng)通信成本逐步下降,移動(dòng)用戶(hù)滲透率超過(guò)100%,新增市場(chǎng)趨于飽和,面對(duì)新增市場(chǎng)的激烈競(jìng)爭(zhēng),存量用戶(hù)的保有顯得越來(lái)越重要。一項(xiàng)調(diào)查數(shù)據(jù)表明,爭(zhēng)取1位新客戶(hù)的成本是保住1位老客戶(hù)的5倍。面對(duì)新的競(jìng)爭(zhēng)形勢(shì),運(yùn)營(yíng)商需要從傳統(tǒng)只重視增量發(fā)展模式向“增存并重”發(fā)展模式轉(zhuǎn)變。如何最大限度地降低客戶(hù)的流失并挽留客戶(hù),成為決策者關(guān)注的話(huà)題。

  客戶(hù)流失給運(yùn)營(yíng)商帶來(lái)了巨大損失,成功挽留一個(gè)即將流失的客戶(hù)比重新發(fā)展一個(gè)客戶(hù)節(jié)約大量成本。減少客戶(hù)流失的關(guān)鍵是提前預(yù)測(cè)潛在的流失客戶(hù),采取相關(guān)措施提高客戶(hù)的滿(mǎn)意度,實(shí)現(xiàn)該預(yù)測(cè)的關(guān)鍵是數(shù)據(jù)挖 掘和大數(shù)據(jù)技術(shù)?;诖髷?shù)據(jù)技術(shù)的數(shù)據(jù)挖掘就是從海量的客戶(hù)資料、使用行為、消費(fèi)行為、上網(wǎng)軌跡等信息中提取有用的信息進(jìn)行組合關(guān)聯(lián),準(zhǔn)確判斷客戶(hù)流失的現(xiàn)狀或傾向,可以讓企業(yè)及時(shí)并有針對(duì)性的對(duì)客戶(hù)進(jìn)行挽留;因此,利用大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)挖掘,預(yù)測(cè)客戶(hù)流失、減少客戶(hù)流失的發(fā)生成為電信行業(yè)研究的重點(diǎn)。

  1國(guó)內(nèi)外研究現(xiàn)狀

  在數(shù)據(jù)挖掘方面,國(guó)外有很多案例和做法值得學(xué)習(xí),比如:中運(yùn)用決策樹(shù)、Logistic回歸、 人工神經(jīng)網(wǎng)絡(luò)等算法建立了移動(dòng)用戶(hù)流失預(yù)測(cè)模型。 Lightbridge公司運(yùn)用CART算法分析了新英格蘭的一 家移動(dòng)服務(wù)商的數(shù)據(jù)并建立了客戶(hù)流失模型AT&T 公司很早就開(kāi)始在大數(shù)據(jù)上的探索,2009年開(kāi)始與 Teradata公司合作引進(jìn)天睿公司的大數(shù)據(jù)解決方案。

  在過(guò)去的幾十年中,中國(guó)企業(yè)都扮演著技術(shù)跟隨者的角色,現(xiàn)階段我國(guó)互聯(lián)網(wǎng)企業(yè)在數(shù)據(jù)挖掘、大數(shù)據(jù)處理以及人工智能、云計(jì)算等領(lǐng)域都有了巨大的發(fā)展。 比如文獻(xiàn)[6]中使用K-means聚類(lèi)算法對(duì)電信客戶(hù)進(jìn)行細(xì)分,在此基礎(chǔ)上探索了客戶(hù)細(xì)分在營(yíng)銷(xiāo)中的實(shí)際應(yīng)用。 中利用神經(jīng)網(wǎng)絡(luò)算法建立用戶(hù)流失預(yù)測(cè)模型,分析用戶(hù)流失特征。中利用Spark平臺(tái)實(shí)現(xiàn)了多種神經(jīng)網(wǎng)絡(luò)算法,對(duì)用戶(hù)流失問(wèn)題提出了快速精確的模型。國(guó)內(nèi)的電信企業(yè)雖然都建立了客戶(hù)流失預(yù)測(cè)、客戶(hù) 分群等模型,但大多都是基于數(shù)據(jù)挖掘軟件如SPSS、SAS等應(yīng)用,使用的數(shù)據(jù)量有限,不能全面分析用戶(hù)流失行為。

  2大數(shù)據(jù)平臺(tái)及技術(shù)

  安徽聯(lián)通構(gòu)建基于B域、O域和M域數(shù)據(jù)融合的大數(shù)據(jù)平臺(tái)——智慧運(yùn)營(yíng)平臺(tái),實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型及全業(yè)務(wù)流程的智慧運(yùn)營(yíng)。智慧運(yùn)營(yíng)平臺(tái)通過(guò)企業(yè)級(jí)大數(shù)據(jù)平臺(tái) 實(shí)現(xiàn)企業(yè)全量數(shù)據(jù)的接入及治理,當(dāng)前包括Hadoop、 Universe、實(shí)時(shí)流處理三大資源池,共計(jì)140多個(gè)節(jié) 點(diǎn),存儲(chǔ)容量3PB、2200核CPU、8T內(nèi)存計(jì)算資源,實(shí)現(xiàn)資源動(dòng)態(tài)管理;流處理平臺(tái)具備百萬(wàn)級(jí)別消息并發(fā) 處理能力,支持1分鐘級(jí)別提供用戶(hù)位置能力(見(jiàn)圖1)。

  智慧運(yùn)營(yíng)平臺(tái)接入BSS、CBSS、OSS、SEQ、上 網(wǎng)等全網(wǎng)多種數(shù)據(jù)源,利用BDI(Big Data Integration, 數(shù)據(jù)集成套件)和Flume進(jìn)行離線(xiàn)數(shù)據(jù)及日志數(shù)據(jù)的抽取、轉(zhuǎn)換、加載等數(shù)據(jù)采集功能,實(shí)現(xiàn)高性能海量數(shù) 據(jù)處理和存儲(chǔ)。利用Hadoop、Universe、實(shí)時(shí)流處理三大資源池,有效支撐上層各種應(yīng)用的開(kāi)發(fā)和運(yùn)行。利用基于大數(shù)據(jù)分析平臺(tái)構(gòu)建的新一代智能數(shù)據(jù)挖掘系統(tǒng) SmartMiner進(jìn)行自動(dòng)化數(shù)據(jù)挖掘,實(shí)現(xiàn)各種算法模型的訓(xùn)練和預(yù)測(cè)。借助智慧運(yùn)營(yíng)平臺(tái)強(qiáng)大的大數(shù)據(jù)分析和處理能力,結(jié)合現(xiàn)網(wǎng)客戶(hù)運(yùn)營(yíng)的經(jīng)驗(yàn),建立有效的用戶(hù)流失預(yù)測(cè)模型,實(shí)現(xiàn)用戶(hù)的流失預(yù)警、維系策略匹配、客戶(hù)反饋優(yōu)化等一整套流程,能夠有效降低用戶(hù)流失。

  3離網(wǎng)預(yù)測(cè)模型構(gòu)建

  3.1離網(wǎng)預(yù)測(cè)原理

  離網(wǎng)預(yù)測(cè)模型主要是根據(jù)歷史數(shù)據(jù)特征,通過(guò)數(shù)據(jù)挖掘算法,建立預(yù)測(cè)模型,并將模型應(yīng)用于現(xiàn)網(wǎng)用戶(hù),預(yù)測(cè)出離網(wǎng)概率高的用戶(hù)。其主要包括數(shù)據(jù)準(zhǔn)備、 模型訓(xùn)練和驗(yàn)證、離網(wǎng)預(yù)測(cè)三大部分[10]。如圖2所示,數(shù)據(jù)準(zhǔn)備階段,根據(jù)出賬和充值規(guī)律定義離網(wǎng)規(guī)則,通過(guò)對(duì)電信業(yè)務(wù)和用戶(hù)行為的理解,從運(yùn)營(yíng)商各域數(shù)據(jù)里提取數(shù)據(jù),并篩選離網(wǎng)預(yù)測(cè)特征字段,構(gòu)建離網(wǎng)預(yù)測(cè)特征庫(kù)。模型訓(xùn)練和驗(yàn)證階段,選取數(shù)據(jù)挖掘算法,進(jìn)行模型訓(xùn)練、評(píng)估和調(diào)優(yōu),訓(xùn)練出最佳模型。離網(wǎng)預(yù)測(cè)階段,將訓(xùn)練的最佳模型應(yīng)用于現(xiàn)網(wǎng)數(shù)據(jù),實(shí)現(xiàn)準(zhǔn)確的流失預(yù)測(cè)。進(jìn)一步通過(guò)有效的維系手段,對(duì)預(yù)測(cè)流失用戶(hù)進(jìn)行精準(zhǔn)維系,減少用戶(hù)離網(wǎng),提升在網(wǎng)用戶(hù)價(jià)值。

  3.2隨機(jī)森林算法

  傳統(tǒng)數(shù)據(jù)挖掘中進(jìn)行流失預(yù)測(cè)多采用決策樹(shù)算法,它的特點(diǎn)有訓(xùn)練時(shí)間復(fù)雜度低、預(yù)測(cè)的過(guò)程比較快、模型容易展示等。但是單決策樹(shù)容易過(guò)擬合,雖然可以通過(guò)剪 枝等方法減少這種情況的發(fā)生,但仍有不足。2001年Leo Breiman在決策樹(shù)的基礎(chǔ)上提出了隨機(jī)森林算。

  隨機(jī)森林是由多個(gè)決策樹(shù)構(gòu)成的森林,算法分類(lèi)結(jié)果由這些決策樹(shù)投票得到,決策樹(shù)在生成過(guò)程中分別在行方向和列方向上添加隨機(jī)過(guò)程,行方向上構(gòu)建決策樹(shù) 時(shí)采用有放回抽樣(bootstrapping)得到訓(xùn)練數(shù)據(jù),列方向上采用無(wú)放回隨機(jī)抽樣得到特征子集,并據(jù)此得到其 最優(yōu)切分點(diǎn)。從圖3中可以看到,通過(guò)K次訓(xùn)練,得到K棵不同的決策樹(shù){T1,T2,…,TK},再將這些樹(shù)組合成一個(gè)分類(lèi)模型系統(tǒng),隨機(jī)森林是一個(gè)組合模型,內(nèi)部仍然是基于決策樹(shù),同單一的決策樹(shù)分類(lèi)不同的是,隨機(jī)森林通過(guò)多個(gè)決策樹(shù)投票結(jié)果進(jìn)行分類(lèi),算法不容易出現(xiàn)過(guò)度擬合問(wèn)題。

  3.3 數(shù)據(jù)準(zhǔn)備

  3.3.1 離網(wǎng)定義及數(shù)據(jù)需求

  為了進(jìn)一步提前鎖定離網(wǎng)傾向用戶(hù),經(jīng)過(guò)歷史數(shù)據(jù)的比對(duì),結(jié)合用戶(hù)使用行為的分析,決定將過(guò)繳費(fèi)期10天未繳費(fèi)的用戶(hù)定義為流失用戶(hù)。根據(jù)傳統(tǒng)數(shù)據(jù)挖掘?qū)崿F(xiàn)的離網(wǎng)預(yù)測(cè)案例的經(jīng)驗(yàn),考慮到大數(shù)據(jù)系統(tǒng)的處理能力,通過(guò)對(duì)連續(xù)3個(gè)月內(nèi)離網(wǎng)的用戶(hù)進(jìn)行離網(wǎng)打標(biāo),增加離網(wǎng)用戶(hù)的樣本量,提高離網(wǎng)預(yù)測(cè)的準(zhǔn)確率;通過(guò)對(duì)目標(biāo)用戶(hù)中隔月后離網(wǎng)的用戶(hù)進(jìn)行打標(biāo),預(yù)留1個(gè)月的 預(yù)測(cè)結(jié)果干預(yù)期,進(jìn)行維系挽留。如圖4所示,采用連續(xù)7個(gè)月的歷史數(shù)據(jù),對(duì)第N-6月的數(shù)據(jù)進(jìn)行隔月后的連 續(xù)3個(gè)月(N-4月、N-3月、N-2月)離網(wǎng)用戶(hù)打標(biāo),取N-6 月、N-5月、N-4月連續(xù)3個(gè)月的正負(fù)樣本并集,解決了傳統(tǒng)打標(biāo)負(fù)樣本量不足和維系干預(yù)期太短等問(wèn)題。

  3.3.2數(shù)據(jù)特征提取

  根據(jù)業(yè)務(wù)經(jīng)驗(yàn),選取與用戶(hù)流失可能存在相關(guān)性的所有屬性,進(jìn)行數(shù)據(jù)審查,篩選存在相關(guān)性較大的特 征屬性。本次建模數(shù)據(jù)特征主要采用B域用戶(hù)通信及消 費(fèi)行為等基本屬性、衍生屬性(匯總、比例、趨勢(shì)和波動(dòng))、挖掘?qū)傩缘龋黾覱域樣本數(shù)據(jù),如上網(wǎng)行為、 終端屬性指標(biāo)(換機(jī)、應(yīng)用偏好、掉話(huà)率、上網(wǎng)協(xié)議響 應(yīng)成功率等)。如表1所示,數(shù)據(jù)維度包括基礎(chǔ)信息維度、通信行為信息、賬務(wù)信息、消費(fèi)行為變化維度、交往圈信息、呼叫異網(wǎng)維度、投訴維度、通信行為維度及上網(wǎng)軌跡、掉話(huà)率等。根據(jù)這些維度數(shù)據(jù)合并匯總成數(shù)據(jù)挖掘特征寬表,用于模型訓(xùn)練和驗(yàn)證。

  3.4建立模型

  流失客戶(hù)預(yù)測(cè)模型的建立,具體包括原始數(shù)據(jù)處理、特征寬表構(gòu)建、模型訓(xùn)練、模型評(píng)估和模型調(diào)優(yōu)五個(gè)部分。如圖5所示,智慧運(yùn)營(yíng)平臺(tái)通過(guò)連接全網(wǎng)數(shù) 據(jù)的接口,獲取建模所需的BSS系統(tǒng)(業(yè)務(wù)支持系統(tǒng))數(shù) 據(jù)和OSS系統(tǒng)(運(yùn)營(yíng)支持系統(tǒng))數(shù)據(jù)。BSS系統(tǒng)是運(yùn)營(yíng)商 向用戶(hù)開(kāi)展業(yè)務(wù)的主要IT組成部分,OSS系統(tǒng)是電信服務(wù)提供商用來(lái)管理通信網(wǎng)絡(luò)的主要系統(tǒng)。BSS數(shù)據(jù)包括 CRM(客戶(hù)關(guān)系)、Billing(賬單數(shù)據(jù))、詳單數(shù)據(jù)及投訴數(shù)據(jù),OSS數(shù)據(jù)包括分組交換數(shù)據(jù)(Package Switch, PS)、測(cè)量報(bào)告數(shù)據(jù)(Measurement Report,MR)和電路交換數(shù)據(jù)(Circuit Switch,CS)。其中PS數(shù)據(jù)描述了用戶(hù)連接網(wǎng)絡(luò)的情況,如上網(wǎng)速度、掉線(xiàn)率和移動(dòng)搜索文本 信息;MR數(shù)據(jù)可以用來(lái)給用戶(hù)定位,獲取用戶(hù)運(yùn)動(dòng)軌跡;CS數(shù)據(jù)描述的是用戶(hù)的通話(huà)質(zhì)量,如掉話(huà)率等。

  我們將獲取的原始數(shù)據(jù)存儲(chǔ)到Hadoop分布式文 件系統(tǒng)中(HDFS),然后再利用Hive進(jìn)行特征生成和處理工作。HDFS可以處理PB級(jí)別的超大文件,Hive可 以提供簡(jiǎn)單的SQL查詢(xún)功能,并能將SQL語(yǔ)句轉(zhuǎn)化為 MapReduce任務(wù)分布式運(yùn)行。

  特征寬表生成后,我們利用Spark的高效計(jì)算能 力,在SmartMiner中選取隨機(jī)森林算法進(jìn)行流失預(yù)測(cè)模型的訓(xùn)練,經(jīng)過(guò)訓(xùn)練結(jié)果的多次驗(yàn)證和評(píng)估,我們將 隨機(jī)森林設(shè)置為200顆樹(shù),SQR采樣方法,樹(shù)的最大深 度為15層,葉子最小樣本數(shù)100個(gè),最大分箱數(shù)32,進(jìn)行模型建立。將分類(lèi)器訓(xùn)練出來(lái)的模型應(yīng)用到現(xiàn)網(wǎng)數(shù)據(jù),可以預(yù)測(cè)未來(lái)3個(gè)月有離網(wǎng)傾向的用戶(hù),按照離網(wǎng)傾向的高低排名,鎖定維系挽留的目標(biāo)客戶(hù)。

  3.5模型評(píng)估

  訓(xùn)練模型的好壞可以通過(guò)對(duì)歷史流失數(shù)據(jù)的檢驗(yàn)來(lái)驗(yàn)證,模型評(píng)估參數(shù)一般包括準(zhǔn)確率和覆蓋率,準(zhǔn)確率越高、覆蓋率越大,模型效果越好,其中:準(zhǔn)確率=預(yù)測(cè)流失準(zhǔn)確的客戶(hù)數(shù) / 預(yù)測(cè)為流失的客戶(hù)數(shù);覆蓋率=預(yù)測(cè)流失準(zhǔn)確的客戶(hù)數(shù) / 實(shí)際流失的客戶(hù)數(shù)。

  如圖6所示,我們根據(jù)建模訓(xùn)練數(shù)據(jù)的規(guī)則,可以在第N月預(yù)測(cè)第N+2月、N+3月、N+4月的流失用戶(hù), 第N+1月為我們的維系窗口期。

  我們選取2016年1~6月數(shù)據(jù)進(jìn)行訓(xùn)練,對(duì)7~10月數(shù)據(jù)進(jìn)行模型預(yù)測(cè),如圖7所示,經(jīng)過(guò)2016年9月至 2017年2月數(shù)據(jù)的驗(yàn)證,可以得到7~10月的預(yù)測(cè)數(shù)據(jù) TOP50000中查準(zhǔn)率基本在80%,查全率40%。

  4離網(wǎng)根因分析

  通過(guò)對(duì)離網(wǎng)用戶(hù)的特征屬性進(jìn)行聚類(lèi)分析,離網(wǎng)用戶(hù)大致原因可以分為:資費(fèi)原因、合約感知原因、社會(huì)交往影響原因、終端換機(jī)原因、地域變更原因、服務(wù)質(zhì)量原因、通信質(zhì)量原因、棄卡原因、新入網(wǎng)質(zhì)量原因及其他原因等。如表2所示,提取2016年11月數(shù)據(jù)預(yù)測(cè)2017年1~3月離網(wǎng)概率top400000用戶(hù),對(duì)其離網(wǎng)情況進(jìn)行驗(yàn)證,其準(zhǔn)確率達(dá)到52%以上。

  5應(yīng)用

  5.1策略匹配

  通過(guò)對(duì)流失用戶(hù)的根因分析,結(jié)合現(xiàn)有維系業(yè)務(wù),將預(yù)測(cè)的離網(wǎng)用戶(hù),根據(jù)業(yè)務(wù)特征進(jìn)行分類(lèi),匹配相應(yīng)策略指導(dǎo)市分VIP維系客戶(hù)經(jīng)理進(jìn)行外呼維系。如表3所示,將離網(wǎng)傾向較高的用戶(hù)分為話(huà)務(wù)異常、業(yè)務(wù)異常和服務(wù)異常三類(lèi),針對(duì)話(huà)務(wù)異常用戶(hù),重點(diǎn)進(jìn)行優(yōu)惠活動(dòng)介紹,增加用戶(hù)黏性;對(duì)于業(yè)務(wù)異常用戶(hù),推薦合約 續(xù)約及更換SIM卡;對(duì)于服務(wù)異常用戶(hù),進(jìn)行及時(shí)安撫并給予一定贈(zèng)送。

  5.2維系效果

  針對(duì)三星級(jí)以上用戶(hù),我們利用在網(wǎng)維系系統(tǒng)進(jìn)行了針對(duì)性的維系挽留。從2017年1月開(kāi)始,我們將大數(shù)據(jù)系統(tǒng)預(yù)測(cè)出的離網(wǎng)傾向較高的高價(jià)值用戶(hù)通過(guò)在網(wǎng)維系系統(tǒng)下發(fā)到市分VIP客戶(hù)經(jīng)理處,根據(jù)匹配的策略進(jìn)行精準(zhǔn)維系。如圖8所示,2015年9月至12月,高價(jià)值 用戶(hù)準(zhǔn)離網(wǎng)率平均值為2.04%,全網(wǎng)準(zhǔn)離網(wǎng)率為3.6%。 模型應(yīng)用后,高價(jià)值離網(wǎng)率從2017年2月開(kāi)始持續(xù)降低,如圖9所示,截至2017年7月下降到1.35%,平均準(zhǔn)離網(wǎng)率為1.49%,相比應(yīng)用前的2.04%下降了0.55%, 每月多挽留客戶(hù)8230戶(hù),高價(jià)值戶(hù)均ARPU按90元計(jì)算,月均減少損失74萬(wàn)元,年減少損失888萬(wàn)元。

  6總結(jié)

  本文闡述了利用智慧運(yùn)營(yíng)大數(shù)據(jù)平臺(tái),對(duì)流失客戶(hù)的特征進(jìn)行的分析和研究,利用SmartMiner分析系統(tǒng)選取隨機(jī)森林算法,建立客戶(hù)流失預(yù)測(cè)模型,通過(guò)多次的訓(xùn)練和優(yōu)化,逐步提高流失預(yù)測(cè)模型的準(zhǔn)確性。通過(guò)對(duì)離網(wǎng)用戶(hù)的根因分析,制定相應(yīng)維系策略,匹配到相應(yīng)的離網(wǎng)傾向用戶(hù),在全網(wǎng)進(jìn)行了系統(tǒng)化的精準(zhǔn)維系,有效提升了用戶(hù)保有率。下一步將結(jié)合維系效果,繼續(xù)優(yōu)化模型參數(shù),完善訓(xùn)練模型,進(jìn)一步提升流失預(yù)測(cè)的準(zhǔn)確率和覆蓋率,繼續(xù)研究用戶(hù)流失根因,根據(jù)離網(wǎng)根因匹配維系策略,進(jìn)一步降低用戶(hù)流失,增強(qiáng)用戶(hù)黏性,提升客戶(hù)價(jià)值。