基于运营商数据的用户关系模型建立示例

Tianyiyun · · 12 次点击 · · 开始浏览    

本文分享自天翼云开发者社区《基于运营商数据的用户关系模型建立示例》,作者:石泽涛

从社交的角度来看,一种典型的用户关系网络即交往圈。一个用户的交往圈定义为“与用户在一段时间内存在双向联系的所有个体”。根据不同社会群体性质,交往圈又可以分为家庭圈、工作圈、密友圈等。基于运营商数据,可识别的用户之间的关联主要为:通信关联、地域关联及身份关联。通信关联指通信的频繁性,地域关联指地理位置上的相近性,身份关联则指用户号码之间的主副关系。

以通信关联指数定义举例通过分析计费详单通话数据,进行正负样本训练,根据训练结果,总结提取特征。结合通话时长、通话频率、通话次数3个方面的特征,定义通信关联指数。

例如现在需要建立用户交往圈关系模型,根据运营商数据中主要存在的用户关联分别计算各类关联指数,并形成总用户关系视图,如下图:

由于交往圈的定义中包括“双向联系”,故剔除仅有单向联系的噪声数据和无价值的离网用户。

对于交往圈来说,快递、中介等服务人员属于噪声数据,影响用户群体圈定,故需要一并剔除。这类人员通常联系人数较多,且平均通话时长较低,可根据这类人员的通话特征进行剔除。

对于关联指数等于0的用户,也应进行剔除。最终得到用户的交往圈关系模型。

最终交往圈确认为:

12 次点击  
加入收藏 微博
暂无回复
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传