一、异常值是指什么?请列举1种识别连续型变量异常值的方法?
二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤
三、根据要求,写出SQL
表A结构如下:
Member_ID –用户的ID,字符型
Log_time –用户访问页面时间,日期型(只有一天的数据)
URL –访问的页面地址,字符型
要求:提取每个用户访问的第一个URL(按时间最早),形成一个新表(新表表名为B,表结构和表A一致)
四、以下是一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师,
a)从数据中,你看到了什么问题?你觉得背后原因是什么?
b) 如果你的老板要求你提出一个运营改进计划,你会怎么做?
表如下:一组每天某网站的销售数据
日期 | 9月6日(周一) | 9月7日 | 9月8日 | 9月9日 | 9月10日 | 9月11日 | 9月12日 |
---|---|---|---|---|---|---|---|
销售额 | 5,061 | 5,050 | 5,022 | 5,097 | 5,045 | 3,430 | 3,053 |
五、某公司针对A、B、C 三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题:
a) 试验需要为决策提供什么样的信息?
c)按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计分析方法