-
10亿+ 秒 看阿里如何达成实时数仓高吞吐实时写入与更新
所属栏目:[大数据] 日期:2022-09-03 热度:51
数据实时入仓所面临的挑战:高性能、可更新、大规模 大数据场景下,实时数据如何写入实时数仓永远是一个比较大的话题,根据业务场景需求,常见的写入类型有: Append only:传统日志类数据(日志、埋点等)中,记录(Record)和记录之间没有关联性,因此新来[详细]
-
善用企业数据策略 无惧混合云和多云环境挑战
所属栏目:[大数据] 日期:2022-09-03 热度:156
混合云和多云架构具有高度的可控性、易扩展性和成本效益,因此企业可以自由选择独立的云产品,以满足几乎任何业务需求。员工可以通过混合云轻松分享和访问数据,推动发展以数据驱动的文化并帮助企业更快地获得洞察。通过混合数据平台,企业能够访问和分析位[详细]
-
Python 取得旅游景点信息及评论并作词云 数据可视化
所属栏目:[大数据] 日期:2022-09-03 热度:138
今天将手把手教你使用线程池爬取同程旅行的景点信息及评论数据并做词云、数据可视化!!!带你了解各个城市的游玩景点信息。 首先新建一个线程并开启线程后线程进入就绪状态,就绪状态的线程不会马上运行,要获得CPU资源才会进入运行状态,在进入运行状态后[详细]
-
万字详解大数据平台异地多机房架构践行
所属栏目:[大数据] 日期:2022-09-03 热度:79
随着B站业务的高速发展,业务数据的生产速度变得越来越快,离线集群规模快速膨胀,既有机房内的机位急剧消耗,在可预见的不久的将来会达到机房容量上限,阻塞业务的发展。因此,如何解决单机房容量瓶颈成为了我们亟待解决的问题。 目前,针对机房容量问题的[详细]
-
抽丝剥茧 深入的数据分析咋整
所属栏目:[大数据] 日期:2022-09-03 热度:73
很多同学总觉数据分析做得不深入,到底该怎么做?今天结合一个具体的例子,分享下如何做一个深入的数据分析项目。 深入级别:0级 某天,你收到一个需求:看下我司APP新增的A功能,过去5天内累计使用1+次的人有多少(去重)。这问题太简单了,直接跑个数丢过[详细]
-
如何使用大数据驱动业务增长
所属栏目:[大数据] 日期:2022-09-03 热度:122
大数据在商业中的作用日趋凸显,数据驱动已经成为企业发展的核心竞争力。 在领导的推动下,很快成立了跨部门的融合增长团队,下面和大家分享这段融合团队的工作经历,一同洞察数据在业务增长方面的实践。 一.切入点 当时融合团队的切入点选得很不错,增加贷[详细]
-
终于有人把Hadoop大数据系统架构讲清楚了
所属栏目:[大数据] 日期:2022-08-26 热度:136
传统的系统已无法处理结构多变的大数据,而高性能硬件和专用服务器价格昂贵且不灵活,Hadoop因此应运而生。Hadoop使用互连的廉价商业硬件,通过数百甚至数千个低成本服务器协同工作,可有效存储和处理大量数据。 1.Hadoop生态体系 Google通过三篇重量级论文[详细]
-
交通领域的物联网如何使大数据之于企业产生价值
所属栏目:[大数据] 日期:2022-08-26 热度:149
全球物流市场不断增长,科技正成为发展的主要触发器。 企业正在寻找用于运输的物联网解决方案,以帮助他们提高供应链的可见性、改善物流各个阶段的运营并节省资源。 这可以通过使用物联网设备收集有关物流过程的数据并将其转换为有价值的业务信息来实现。 让[详细]
-
怎样用好数据科学
所属栏目:[大数据] 日期:2022-08-26 热度:57
很长一段时间以来,数据科学一直被视为科技和商业领域的下一次重大革命。最近几年增加了不少使用数据科学应用的企业。根据Statista的数据,截至2021年,近60%的公司在其团队中拥有至少50名数据科学家。 然而,如果客观地看待,数据科学提供的结果与它的期望[详细]
-
浅析大数据的数据灾备建设
所属栏目:[大数据] 日期:2022-08-26 热度:184
大数据时代,数据呈爆炸趋势增长,很多企业都从大数据中获得了利益,推动各自的业务上升了一个台阶。通过大数据技术的完善尤其是大数据和云容器技术相结合,各个企业已经把自己的重要业务迁移到了大数据平台。与此同时企业对数据可靠性和业务连续性保证的诉[详细]
-
未来已来 Cloudera拥抱混合数据年代
所属栏目:[大数据] 日期:2022-08-26 热度:187
我们生活在一个混合数据的世界中。在过去十年间,世界创建、捕获、复制和使用的结构化数据量已从2011年的不到 1ZB 增长到 2020 年的近 14ZB,这已经很惊人了,但还有另外更巨大的 50ZB数据非结构化数据、云数据和机器数据。 对于Cloudera来说,这是一个回到[详细]
-
如何策划数据可视化平台
所属栏目:[大数据] 日期:2022-08-26 热度:114
最近在项目上常常听到这样的话:我想要一个酷炫的数据大屏,设计一定要有科技感,这个可视化设计没有重点每当听到这些需求,作为设计师一般都是欲哭无泪的。到底什么叫酷炫有科技感?客户理解的数据大屏什么样?是数据还是可视化出了问题?? 这篇文章将会结[详细]
-
Python实行数据可视化 你会用什么库来做呢
所属栏目:[大数据] 日期:2022-08-26 热度:136
用Python进行数据可视化你会用什么库来做呢? 今天就来和大家分享Python数据可视化库中的一员猛将Altair! 借助Altair,我们可以将更多的精力和时间放在理解数据本身及数据意义上,从复杂的数据可视化过程中解脱出来。 简单来说,Altair是一种可视化语法,也[详细]
-
一文看清楚 数据指标体系的几大类别
所属栏目:[大数据] 日期:2022-08-26 热度:180
很多同学问:有没有普遍的、一般的指标体系梳理方法?网上常见的指标体系分享,大多是互联网的AARRR一类,现实中情况却很复杂。普遍的方法当然有,就是基于业务逻辑,梳理指标体系。从本质上看,数据指标体系有4大类型,针对四个不同的业务逻辑。今天来系统[详细]
-
两种主流大数据系统架构的差异 终于有人讲明白了
所属栏目:[大数据] 日期:2022-08-26 热度:70
同样都可以处理大规模数据的MPP数据库架构与Hadoop体系架构属于不同的技术体系,二者没有直接的相关性,却常常被放在一起进行比较。特别是在企业数据仓库建设中,MPP架构与Hadoop架构代表两类典型的技术路线选型,事实上,在2015年左右甚至有人认为基于Hadoo[详细]
-
从0到1创建智能灰度数据体系 以vivo游戏中心为例
所属栏目:[大数据] 日期:2022-08-26 热度:96
本文介绍了vivo游戏中心在灰度数据分析体系上的实践经验,从实验思想-数学方法-数据模型-产品方案四个层面提供了一套较为完整的智能灰度数据解决方案,以保障版本评估的科学性、项目进度以及灰度验证环节的快速闭环。该方案的亮点在于,指标异动根因分析方法[详细]
-
大厂烧钱也要追捧 AI 大模型的迷与思
所属栏目:[大数据] 日期:2022-08-26 热度:59
电风扇与空皂盒的故事,大家都听过吧? 传闻某国际知名快消大厂曾引进一条香皂包装生产线,结果发现这条生产线在包装香皂的过程中出现了一个缺陷,就是常常有盒子没装入香皂。总不能把空盒子卖给顾客,于是,他们就请了一个学自动化的博士后来设计分拣空香皂[详细]
-
消费级GPU成功运行1760亿参数大模型
所属栏目:[大数据] 日期:2022-08-26 热度:125
语言模型的规模一直在变大,PaLM 有 540B 参数,OPT、GPT-3 和 BLOOM 有大约 176B 参数,模型还在朝着更大的方向发展。 这些模型很难在易于访问的设备上运行。例如,BLOOM-176B 需要在 8 个 80GB A100 GPU(每个约 15000 美元)上运行才能完成推理任务,而微[详细]
-
自动驾驶还要多久才能真正实现?
所属栏目:[大数据] 日期:2022-08-26 热度:67
近日,一则关于某新势力的车辆在智能驾驶辅助功能开启状态下出现严重车祸(请原谅我用这么长的句子来描述这起车祸,因为我实在不希望惹上任何的麻烦)的新闻刷爆了网络,让大家又再一次关注自动驾驶的技术发展和相关的社会问题。 关于这起事故,从网络上可以[详细]
-
整理了27个Python人工智能库,建议收藏!
所属栏目:[大数据] 日期:2022-08-26 热度:129
1、Numpy NumPy(Numerical Python)是 Python的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库,Numpy底层使用C语言编写,数组中直接存储对象,而不是存储对象指针,所以其运算效率远高于纯Python代码。 我们可以在[详细]
-
全面分析四大自动驾驶策略
所属栏目:[大数据] 日期:2022-08-26 热度:183
导读 当前自动驾驶的策略研究还停留在具体场景执行具体策略,清华大学的研究人员在交通领域的顶会发表了一篇全面的综述,从更高级的角度分析自动驾驶策略。 当自动驾驶遇见会车,应该抢先通过,还是等待让行? 自动驾驶的策略一直是该领域的核心问题,即在交[详细]
-
2023年十大人工智能技术将发生转变
所属栏目:[大数据] 日期:2022-08-26 热度:171
五年前,自动驾驶汽车的想法还只是一个幻想。现在它们已经成为现实,尽管还有很多东西正在酝酿中。技术瞬息万变,人工智能也不例外。由于人工智能技术所具有的预测能力和提供的便利,人们正在迅速适应它。企业也同样对此趋之若鹜,要么是希望通过改善整体性[详细]
-
人工智能会改变供应链吗?
所属栏目:[大数据] 日期:2022-08-26 热度:183
物流业占全球GDP的12%,并以每年5%的复合年增长率增长。根据这些预计,到2023年,全球物流支出将飙升至15万亿美元以上。这些预估数字加上全球疫情造成的供应链成本飙升,增加了对创新技术的需求,以提高效率和降低供应链成本。 但什么是供应链呢?在其最简单[详细]
-
2022 年量子人工智能深度指南
所属栏目:[大数据] 日期:2022-08-26 热度:138
量子计算和人工智能都是变革性技术,人工智能很可能需要量子计算才能取得重大进展。人工智能虽然用经典计算机产生功能性应用,但受限于经典计算机的计算能力。量子计算可以为人工智能提供计算提升,使其能够解决更复杂的问题和AGI(通用人工智能)。 什么是[详细]
-
量子计算比人工智能更危险?
所属栏目:[大数据] 日期:2022-08-26 热度:50
今天的人工智能就像回形针一样具有自我意识。尽管大肆宣传例如谷歌工程师奇怪地声称他的公司的人工智能系统已经活了起来,以及特斯拉首席执行官埃隆马斯克的推文预测到 2029 年计算机将拥有人类智能,但这项技术仍然无法完成简单的日常任务。这其中包括驾驶[详细]