1.外部数据库导入
外部数据库是一个重要的数据来源。尤其电商平台对这种数据来源渠道非常常用。用于 HDFS 和外部数据库中导入导出数据的工具比较常用的是 Sqoop。
2.日志文件
日志文件也是一个非常常用的数据来源。而用于自动化迁移日志文件到 HDFS 上的工具是 Flume。
3.前端埋点
前端埋点是指在前端系统中将用户的一些动作行为部分或者全部上传到后台以供分析使用的。用户在前端的某些 *** 作是不会被记录到传统日志中,更不会被保存到后台数据库中的。但这些动作行为往往又代表着用户的心理状态,对于分析用户行为与刻画用户画像而言还是非常有参考价值的。为了得到这些数据,就有了前端埋点的 *** 作。
4.爬虫
爬虫获取数据的方式通常只会出现在某些特定性质的企业里。
如果你想研究中国的电子商务,可以上艾媒数据中心找数据。不管是垂直电商、服务型电商、B2B电商、B2C电商还是中国跨境电商的数据都可以找到,此外要是想研究全球电子商务,可以找到日本、意大利、英国、西班牙、智利等国家的数据。
在数据中心上,可以 2013-2018年中国网购市场商品总额,以及2020年的预测数据。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)