没有找到合适的产品?
联系客服协助选型:023-68661681
提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
原创|行业资讯|编辑:陈俊吉|2017-02-20 14:17:49.000|阅读 421 次
概述:很难有机会接触这么多的实际真实数据。通过对于这些数据的分析,初步了解大数据的处理方式。进一步掌握MongoDB的特性,熟练Excel的高级用法。这里只是做分析,不提供源代码,毕竟是一个比赛。这里只是做分析,不提供源代码,我也无意开发一个完整的程序。
# 界面/图表报表/文档/IDE等千款热门软控件火热销售中 >>
很难有机会接触这么多的实际真实数据。
通过对于这些数据的分析,初步了解大数据的处理方式。
进一步掌握MongoDB的特性,熟练Excel的高级用法。
这里只是做分析,不提供源代码,毕竟是一个比赛。
这里只是做分析,不提供源代码,我也无意开发一个完整的程序。
http://research.xiaojukeji.com/competition/detail.action?competitionId=DiTech2016
构建一个模型,根据天气,交通,区域里面的各种设施,以往历史数据,预测未来的某个时间点,某个区域里,打车需求的缺口。整个算法其实就是一个有监督的机器学习的过程。
(5月20日版本)下载后的整个压缩数据包575M,其中包括的订单数据大约900万条。(其他Master表数据量很小,这里忽略不计)
使用MongoDB存储的话,大概使用2GB的空间,全部导入之后,工作用计算机十分卡顿。MongoCola管理软件失去响应。所以,这里的订单按照日期导入。(训练的时候,按照天来训练)
注意:官方的订单数据的 订单号 OrderID是主键重复的。这里以第一次出现的订单号的数据为准。
官方对于重复订单的解释:
关于订单的目标区域HashCode,这里发现一部分数据是无法找到的,可能是跨区域的。
(全部订单:498789 ,目的地可以找到:406138,跨区域:92651)
由于数据量非常庞大,所以这里建议将中间的计算结果也放入数据库中备用。
订单数据整理,主要是整理出各个时段,各个地域的订单数据。
数据整理尽量使用LINQ进行处理,MONGODB查询是消耗时间的!!!,这里数据库只是用作数据的存储不做计算
private void btnImportDB_Click(object sender, EventArgs e)
{
string rootFolder = txtRootDir.Text;
//Order: Root + "\order_data"
foreach (var filename in Directory.GetFiles(rootFolder + "\\order_data"))
{
if (!filename.Contains("._"))
{
string strDate = filename.Substring(filename.LastIndexOf("_") + 1);
var colname = "Order_" + strDate;
Database.Clear(colname);
var orderlist = new List<Order>();
var read = new StreamReader(filename);
while (!read.EndOfStream)
{
var o = Order.Gernerate(read.ReadLine());
orderlist.Add(o);
}
orderlist = orderlist.Distinct(x => x.order_id).ToList();
Database.InsertRecBatch(orderlist, colname);
var orderGaplist = new List<OrderGap>();
Database.Clear("OrderGap_" + strDate);
for (int time = 1; time < 144 + 1; time++)
{
for (int area = 1; area < 66 + 1; area++)
{
var m = new OrderGap() { DistrictId = area,TimeSlient = time};
m.Total = orderlist.Count((x) => { return x.DistrictID == area && x.TimeSlient == time; });
m.Gap = orderlist.Count((x) => { return x.DistrictID == area && x.TimeSlient == time && x.driver_id == "NULL" ; });
m.GapPercent = m.Total == 0 ? 0 : Math.Round(((double)m.Gap / m.Total) * 100, 2);
orderGaplist.Add(m);
}
}
Database.InsertRecBatch(orderGaplist, "OrderGap_" + strDate);
//暂时只分析一天数据
break;
}
}
}
以下是2016-01-01的数据分析。蓝色的是GAP缺口数,红色的是Total数。
一天24个小时整体需求分布可以看个大概了。
PS 区域1 :占整体的5.1%订单量,有一定的参考价值
区域51 :占整体的22.5%订单量,有一定的参考价值
整体上看,所有区域的分时图 2016-01-01的数据图:
这里看到,整个24小时分布极不均衡。考虑到 01-01 是一个特殊的日子,大家为了跨年而在零点之后选择打车也是可以理解的。
同样的51区域,2016-01-02的情况则比较正常,整体的高峰出现在夜间16:50 - 17:20(评价订单850) 左右。21:10,22:00也是两个小高峰(平均订单720)。
各项指标分析
以下数据为2016-01-01的数据统计
整体有效订单数:498789(订单ID去重复)
66个区域的订单分布是极其不均衡的.
MAX | MIN | AVG |
---|---|---|
112023 | 71 | 7557.4 |
排名后33位的,总共只有整体的4.37%的订单
排名前5位的,总共只有整体的50.87%的订单
我们将POI总数/30 和订单数一起放到柱状图中发现,POI总数和订单数应该有一些联系。
一个区域POI数越多说明这个地区越是繁华,从这里打车的需求就越多。
滴滴打车的POI分为了25个分类,我们选取了 2016-01-01 对于POI的分类和订单之间的关系也作了研究。
按照实际来说,例如有100家KTV,则每家KTV为贡献一些订单。同理,如果是饭店,每家饭店也会贡献一些订单。
这里的图表示了各个POI分类的数量和总体订单的关系。
A:不是所有设施级关系都是a#b:xx的格式,有的设施只有一级,而有的设施甚至有三级,#号只是表示分割层级的关系,如果是设施只有一级则为a:xx,而如果是2级则是a#b:xx,如果是3级则是a#b#c:xx,依次类推。
Q: 关于POI数据的分类一共分多少1级类目,多少2级类目,且是否有类目示意的对照表?
A: 这个问题的答案都在数据中,参赛者可以自行统计。类目对应信息其实不是很重要,重要的是分析其和目标的关联程度。
天气数据库是里面的数据分为PM2.5的值。天气状态编码(编码和实际对应关系未知),以及温度情况。
按照道理来说,如果天气越差,则打车的需求就越旺盛。
下面我们来分析一下天气和订单的关系。
选择 2016-01-03作为分析对象。
天气数据每个时间片测试两次,为了方便观察,我们选择第一次测试结果作为考察对象。
当天全时段的PM2.5和温度分时图
天气类型编号和天气描述,请参见 滴滴算法大赛算法解决过程 - 机器学习
当天的全区域的订单情况分时图
从一天的时间看,在不明确天气类型的时候,PM2.5和温度对于整体的影响很难看到直接关联的证据。
我们考察最繁华的51区域,周一到周日对于订单量的关系。
这里观察到并没有什么规律可循
第05区域也是这样的。
这里的交通数据是每个区域里面,不同拥挤状况的道路条数。
2016-01-07 #51 区域分时拥堵状态图 (0:10 -23:50 143个数据)
大部分情况下,Level1的道路条数占据了绝大多数。(LV4最拥堵)
看一下Level4 #51区域的情况
更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>
详情请咨询在线客服!
客服热线:023-66090381
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@evget.com
Parasoft dotTEST凭借其即插即用的内置安全标准和直观的规则映射能力,为C#/VB.NET 开发者提供了强大的支持。它有效消除了理解复杂标准与配置规则的障碍,让开发者能够专注于编写高质量代码,而非耗费精力在标准解读与工具映射上。这不仅显著提升了开发效率,缩短了交付周期,更从源头系统性地降低了安全风险,确保了软件符合严苛的行业合规要求。
Parasoft Virtualize以智能复用和轻量存储为核心,不仅解决了传统测试数据管理的冗余与性能瓶颈,更通过技术创新释放了团队的生产力。它让开发者摆脱重复劳动的束缚,将精力聚焦于更复杂的业务逻辑与质量验证,从而在快节奏的开发周期中保持敏捷与精准。无论是应对高并发的性能挑战,还是满足数据合规的严苛要求,Virtualize都以优秀的解决方案为技术团队提供了坚实的支撑。
imScale近期与 西门子PLM软件公司 和Tech Soft 3D达成技术合作,将行业领先的几何建模内核Parasolid及多格式CAD数据解析引擎HOOPS Exchange深度集成至平台中,全面增强CAD数据处理与互操作能力。
今天为大家介绍Kotlin 开发者如何在 Android Studio 中使用 JetBrains AI Assistant ,欢迎下载工具体验!
工业4.0优选产品 | 商业智能和绩效管理软件领导者,帮助企业成为业绩最佳的分析驱动型企业
SPSS Modeler工业4.0优选产品 | 在历史数据中发现规律以预测未来事件,做出更好的决策,实现更好的成效
IBM BigInsights for Apache Hadoop经济高效地存储、管理和分析大数据
IBM InfoSphere Streams高效捕获和分析动态数据的软件平台
InfoSphere DataStage助您发现、充实、集成和管理数据的整个生命周期
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@evget.com
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢
慧都科技 版权所有 Copyright 2003-
2025 渝ICP备12000582号-13 渝公网安备
50010702500608号