(1) 大数据痛点一号:GPU编程仍未得到普及
CPU的使用成本仍然较为昂贵,就目前来讲,GPU的使用成本优势并没能得到很好的体现,我们难以针对其进行编程,几乎没办法在不建立特定模型的前提下完成这项任务。
(1) 大数据痛点二号: 多工作负载缩放
存储与处理体系之间的交互关系没有处理好,应用程序或者工作负载需要在这方面浪费太多精力。
(2) 大数据痛点三号: NoSQL部署更令人头痛
(3) 大数据痛点四号:查询分析器/修复器
程序会移除可能影响运行效果的糟糕缓存配置或者返回速度却慢得让人抓狂。要么是跳转次数太多、要么是查询太过复杂,有时候我们的索引无法与where子句(即范围合并)相匹配。简而言之,我们将大量精力投入到了糟糕或者复杂查询的优化当中。
(4) 大数据痛点五号: 分布式代码优化
所谓“数据科学家”们编写出的Python代码相当垃圾,根本没办法有效进行问题分配,而且会造成大量不必要的内存浪费。
(5) 大数据痛点六号:分布式名不副实
(6) 大数据痛点七号:机器学习映射
没人愿意解决真正有难度的部分——对业务体系中的常见部分进行映射、描述问题并通过描述映射找到应当使用的具体算法。
(7) 大数据痛点八号:安全性
(8) 大数据痛点九号:提取、转换与加载
提取、转换与加载(简称ETL)可以说是每个大数据项目当中悄无声息的预算杀手。但是企业的原始数据往往处于混乱的状态,没有哪家厂商愿意拿出一套无缝化处理方案来。