Have a Question?

如果您有任务问题都可以在下方输入,以寻找您想要的最佳答案

数据是什么(什么是大数据?要简单通俗点的解释?)

数据是什么(什么是大数据?要简单通俗点的解释?)

题图来自Unsplash,基于CC0协议

本文目录

  • 1、什么是大数据?要简单通俗点的解释?
  • 2、大数据的含义和作用是什么?
  • 3、大数据究竟是什么?大数据有哪些技术呢?
  • 4、大数据是哪个数据?指的是个人数据还是企业数据?
  • 5、云计算,大数据,人工智能,到底是什么意思?云计算是计算什么东西?大数据是什么数据?
  • 6、大数据是什么意思?
  • 7、什么是数据结构和算法?
  • 8、大数据是干什么的?
  • 正文

    1、什么是大数据?要简单通俗点的解释?

    什么是大数据及应用?大数据即为海量数据。人类生活在三维空间中,一草一木,一山一水,人类活动的行为轨迹,都能用数据来表达。如企业的生产运营,商品标准。政府的管理决策,消费者的消费水平,消费习惯。地理环境的一条公路,一条河流等等。每方面都有每方面的大数据。每个行业都有每个行业的大数据。通过各企业,行业,社会主体等等数据的集成。形成了概念更大,更有价值的大数据流。通过宇宙万物是互联的原理。以及逻辑关系的分析。能够得到。关于社会治理,企业运营,个人服务的便捷可靠,真实的服务方案。一件事物的组成并非由单一因素组成。由多方组合或者协同完成的。一件衣服的完成,要有生产布料的厂家,制衣厂家,制扣厂家,制线厂家,设计方,工人加工等等环节组合而成。大数据也是如此。大数据应用也是如此。人类刚刚迈入数字经济时代。既为以数据为生产资料的时代。谁能掌握大数据以及大数据的应用?更好地服务于人类社会。谁就占据了未来财富以及地位的制高点。中国战略性新兴产业联盟河北唐冠众兴科技有限公司毕绍鹏回答

    2、大数据的含义和作用是什么?

    大数据简单说就是现实世界数据化!

    而大数据对于个人的意义就是:个人与信息的强结合,个人自带可信的信息。

    就拿健康码来说,为什么绿码就能放行?为什么各个检查口看到绿码就放行?因为绿码 是携带了个人安全的健康信息,表示这个人是低风险的。

    换句话说,健康码是个人信息的一部分,而且是可信的。

    健康码的存在,是基于大数据的。我们人会休息,但是手机不会休息,于是我们的位置信息随时随地被记录下来,形成一个个人的行动路径。我们有没有经过高风险地区,甚至可以划分到社区和小区。通过收集类似的个人大量数据,最终形成了一个绿色的健康码。以证明我们是安全的,我们没有携带病毒。

    早期互联网,人和信息是分开的。电脑是固定在一个个地方,我们只能收集到ip,个人账户信息。地理位置只能通过ip来推测,那个时代,广告的精准推送是非常难的。只能根据地区来推送。

    而现在,智能手机的大量普及,不可避免的,我们通过各种“用户协议”开始暴露我们的个人数据,去了哪里,买了什么东西,和谁是朋友和一些基本信息,性别,年龄等等。

    于是,大数据算法可以推算出,我们的行动路径,我们的爱好,活跃时间,喜欢什么app,喜欢什么文章。最终逐渐的,我们数据个人形象越来越逼近真实的我们。

    而健康码的出现,几乎就是一个正面的证明,说明我们的个人数据形象和真实的我们已经几乎等同了。

    这就是大数据时代,我们逐渐在变得越来越透明,越来越数据化。

    数据就是我们,我们就是数据!

    3、大数据究竟是什么?大数据有哪些技术呢?

    就以悟空问答为例说说大数据的故事。以下说的数字都不是真实的,都是我的假设。

    比如每天都有1亿的用户在悟空问答上回答问题或者阅读问答。

    每天产生的内容

    假设平均有1000万的用户每天回答一个问题。一个问题平均有1000的字, 平均一个汉字占2个字节byte,三张图片, 平均一帐图片300KB。那么一天的数据量就是:

    文字总量:10,000,000 * 1,000 * 2 B = 20 GB

    图片总量: 10,000,000 * 3 * 300KB = 9 TB

    为了收集用户行为,所有的进出悟空问答页面的用户。点击,查询,停留,点赞,转发,收藏都会产生一条记录存储下来。这个量级更大。

    所以粗略估计一天20TB的数据量. 一般的PC电脑配置大概1TB,一天就需要20台PC的存储。

    如果一个月的,一年的数据可以算一下有多少。传统的数据库系统在量上就很难做到。

    另外这些数据都是文档类型的数据。需要各种不同的存储系统支持,比如NoSQL数据库。

    需要分布式数据存储,比如Hadoop的HDFS。

    数据的流动

    上述1000万个答案,会有1亿的人阅读。提供服务的系统成百上千。这些数据需要在网上各个系统间来回传播。需要消息系统比如Kafka。

    在线用户量

    同时在线的用户量在高峰时可能达到几千万。如此高的访问量需要数前台服务器同时提供一致的服务。为了给用户提供秒级的服务体现,需要加缓存系统比如redis。

    机器学习,智能推荐

    所有的内容包括图片都会还用来机器学习的分析,从而得到每个用户的喜好,给用户推荐合适的内容和广告。还有如此大量的数据,必须实时的分析,审核,审核通过才能发布,人工审核肯定做不到,必须利用机器来智能分析,需要模式识别,机器学习,深度学习。实时计算需要Spark,Flink等流式计算技术。

    服务器的管理

    几千台服务器,协同工作。网络和硬件会经常出问题。这么多的资源能够得到有效利用需要利用云计算技术,K8S等容器管理工具。还需要分布式系统的可靠性和容灾技术。

    本人,@小马过河Vizit,专注于分布式系统原理和实践分享。希望利用动画生动而又准确的演示抽象的原理。欢迎关注。

    关于我的名字。小马过河Vizit,意为凡事像小马过河一样,需要自己亲自尝试,探索才能获得乐趣和新知。Vizit是指Visualize it的缩写。一图胜千言,希望可以利用动画来可视化一些抽象的原理。

    4、大数据是哪个数据?指的是个人数据还是企业数据?

    你好,我是头条科技领域创作者 万魔寺。

    很荣幸为您答疑解惑,您的问题是:

    大数据是哪个数据?指的是个人数据还是企业数据?

    以下是我个人的一点建议和意见。

    希望能够对您有所帮助,

    祝您生活愉快。

    5、云计算,大数据,人工智能,到底是什么意思?云计算是计算什么东西?大数据是什么数据?

    感谢邀请!

    作为IT行业的多年从业人员,我来回答下这个问题,供您解惑。

    云计算、大数据、人工智能都是当前社会热点,在人类的预想中,未来的大部分产业都会受到这些高新技术的影响。同时,我们都对这些热点产业充满期待。

    云计算:可以成为云服务。简单的说,是在软件云端开发运行的一种服务,现在的互联网软件大多都属于终端化。而5G的推行促进软件云端化的进程。云服务分为三种,Iaas、SaaS与PaaS服务,最基础的好处就是可以省去软件提供者购买一些高价的计算机硬件服务器。所有的服务、业务、数据处理均可以在云端实现。未来PaaS服务,有望形成,企业人员提供相关的软件想法以及需求文档。云端帮忙定制化,这个问题不需要企业自己的开发维护软件的生产到运行,云端服务帮忙解决一切问题。

    大数据:大数据是集数据采集、数据分析、数据应用为一体的产业,目的是实现数据的价值化服务,大数据从数据的收集到集中处理到最后的分析应用,为庞大的数据搜寻价值。现在市场中其实已经有相关产业在应用“今日头条的推荐系统”,应该就是根据用户的喜好综合分析之后进行针对化推荐。大数据收集的数据其实多种多样,但是在当今,收集的数据大多侧重于互联网服务中的数据,毕竟现在是互联网消费时代,一些消费数据的收集、综合分析处理可以更加容易实现数据的价值化服务。

    人工智能:人工智能应该是集自然语言、机器语言等为一体的智能化操作产业。人工智能未来应该会体现在可穿戴智能化设备、智能家居、智慧城市、无人驾驶等领域。人工智能产业是我国在某些高技术领域实现弯道超车的重要依据,所以也受到国家的高度重视,但是现在人工智能更多的还处于实验状态,未来有望投入市场。

    希望回答对您有所帮助。

    我本人从事多年互联网Java开发,感兴趣的朋友可以关注私聊,共同努力,共同进步。

    谢谢!

    6、大数据是什么意思?

    大数据(英语:Big data),又称为巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语。

    大数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,大数据的出现促成广泛主题的新颖研究。这也导致各种大数据统计方法的发展。大数据并没有统计学的抽样方法;它只是观察和追踪发生的事情。因此,大数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。由于近期的技术进步,发布新数据的便捷性以及全球大多数政府对高透明度的要求,大数据分析在现代研究中越来越突出。

    应用:

    大数据的应用示例包括大科学、RFID、感测设备网络、天文学、大气学、交通运输、基因组学、生物学、大社会数据分析、互联网文件处理、制作互联网搜索引擎索引、通信记录明细、军事侦查、金融大数据,医疗大数据,社交网络、通勤时间预测、医疗记录、照片图像和影像封存、大规模的电子商务等。

    1.大型强子对撞机中有1亿5000万个传感器,每秒发送4000万次的数据。实验中每秒产生将近6亿次的对撞,在过滤去除99.999%的撞击数据后,得到约100次的有用撞击数据。

    将撞击结果数据过滤处理后仅记录0.001%的有用数据,全部四个对撞机的数据量复制前每年产生25拍字节(PB),复制后为200拍字节。

    如果将所有实验中的数据在不过滤的情况下全部记录,数据量将会变得过度庞大且极难处理。每年数据量在复制前将会达到1.5亿拍字节,等于每天有近500艾字节(EB)的数据量。这个数字代表每天实验将产生相当于500垓(5×1020)字节的数据,是全世界所有数据源总和的200倍

    2.大数据产生的背景离不开Facebook等社交网络的兴起,人们每天通过这种自媒体传播信息或者沟通交流,由此产生的信息被网络记录下来,社会学家可以在这些数据的基础上分析人类的行为模式、交往方式等。美国的涂尔干计划就是依据个人在社交网络上的数据分析其自杀倾向,该计划从美军退役士兵中拣选受试者,透过Facebook的行动app收集资料,并将用户的活动数据传送到一个医疗资料库。收集完成的数据会接受人工智能系统分析,接着利用预测程序来即时监视受测者是否出现一般认为具伤害性的行为。

    3.运用数据挖掘技术,分析网络声量,以了解客户行为、市场需求,做营销策略参考与商业决策支持,或是应用于品牌管理,经营网络口碑、掌握负面事件等。如电信运营商透过品牌的网络讨论数据,即时找出负面事件进行处理,减低负面讨论在网络扩散后所可能引发的形象危害。又如具有大量商店交易数据的第三方服务业者(Third-party Service Providers, TSP)可以集成手中交易数据、公开的顾客评论数据(例如:Google Map评论)、法院的店家诉讼数据等,评估与预测店家运营情形,进一步进行商业顾问服务。

    7、什么是数据结构和算法?

    什么是“算法”

    算法,一看字面就知道,肯定是“计算方法”的简称啦,特指“计算机的计算方法”,所以,算法是由电脑程序来实现的。

    算法,英文叫Algorithm,就是为了让电脑解决一个问题而设计出来的一套计算方法,这套计算方法的设计是依靠“数学模型”的建立。

    也就是说,程序员在设计算法之前,会将实际问题理解分析,归纳为一个“具体的数学问题”。

    算法是解决问题的计算方法

    算法有这么几个特征

    1 确定

    算法的每一个步骤都有“明确的意义”,对于算法结果的预期也是明确的。

    2 有穷

    算法不能一直算,停不下来是不行的;要有一个明确的结束条件,要不然算到“天荒地老”还有什么意义呢?

    3 可行

    有个笑话说一个人面试会计师,算数特别快瞬间出结果,但是就是算得不对。

    4 输入输出

    算法就是用来解决问题的,问题的来源就是输入,问题的结果就是输出。

    再复杂的算法也是由一个个小算法组合成的

    怎么设计一个算法程序呢

    算法有三个要素——

    数学模型,输入输出方法,算法步骤。

    所以说,怎么设计一个算法呢?

    首先,先对要解决的问题建立一个数学模型,把原问题化为数学问题;

    然后,将问题的“已知条件”化为“数据”输入到数学模型中;

    再然后,通过对输入一步一步的转化/处理/计算,得到结果;

    最后,把结果按照希望的形式,输出出来。

    数据结构对算法设计至关重要

    数据结构有两层含义——

    1 代表了储存数据的集合

    一系列的数据能够储存在这个数据结构中。

    2 代表了储存的数据之间有特定的关系

    这正是“结构”一词的意义,学过线性代数的同学一定很清楚,结构的力量很强大,能让信息量成倍地扩大。

    数据——重要的信息价值所在

    数据结构的选择会极大地影响算法设计

    合适的数据结构能让算法设计时更高效更简洁,而不合适的数据结构有时候会把算法设计带入深渊,甚至无法实现算法。

    有些初学编程的朋友在处理一些算法问题时,难免会遇到一些“感觉很繁琐,但又想不出什么简单的方法”的情况,这时不妨回来看看数据结构,换一个更适合的数据结构,常常会有柳暗花明之感呢。

    数据结构是编程的基础中的基础

    初阶数据结构

    数据结构共8种,有4种最常用也最简单,它们是:

    数组(Array)

    链表(Linked list)

    堆栈(Stack)

    队列(Queue)

    由于它们的结构都是线性的,它们还有一个共同的名字——

    “线性表”。

    8、大数据是干什么的?

    很高兴能够和你一起讨论大数据是干什么的。

    这些年以来,我们已经通过各种渠道听说过大数据;大数据出现的频率极高,给大家提供便利的生活支撑,也受到大家极高的关注。现在而今眼目下,好像开口闭口不提一下大数据,都觉得自己Low了的感觉。那我们就来了解一下什么叫大数据,了解大数据的特性,以及存在的危险。

    大数据的定义

    大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。现阶段我们能够接触到的所有信息,都是大数据中的一分部。大数据具有5V特点:Volume(大量)、Velocity(时效)、Variety(多样)、Value(低价值密度)、Veracity(真实性)五个特点。

    一、Volume(大量)

    大数据有多大呢。就以我们日常接触传统数据来进行恒量吧。

    一个中文汉字2个字节,即2byte。

    1 KB = 1024 B (KB - kilobyte)

    1 MB = 1024 KB (MB - megabyte)

    1 GB = 1024 MB (GB - gigabyte)

    1 TB = 1024 GB (TB - terabyte)

    1 PB = 1024 TB (PB - petabyte)

    1 EB = 1024 PB (EB - exabyte)

    1 ZB = 1024 EB (ZB - zettabyte)

    简单的工式可能阻碍你的理解,那我们以一下常用数据来帮助你理解。

    1、500G 普通笔记本电脑硬盘容量;

    2、1TB 普通移动硬盘容量;

    3、1ZB其中据相关资料显示,2011年,全球被创建和复制的数据总量为1.8ZB;据预估:到今年年底(2020),全球大数据计算中心存储的数据可达到35ZB。

    二、Velocity(时效)

    大数据具有一定的时效性。

    每一条数据,都是具有一定的时效性的。例如:几个月以前全球的新冠肺炎疫情累积确诊数量为0;截止目前为止,全球已经有超过300万人确诊感染新冠肺炎。每日今日头条呈现的新闻排行榜,也是不停地在变化。每一条数据的产生,到使用,到消亡,所经历的时间越来越短;热搜的排行十几分钟更新一次,实际上,信息的变化更快,快到超出我们的想像。

    引用一句话:

    就在刚刚过去的这一分钟,数据世界里发生了什么?Email:2.04亿封被发出Google:200万次搜索请求被提交Youtube:2880分钟的视频被上传Facebook:69.5万条状态被更新Twitter:98000条推送被发出12306:1840张车票被卖出……

    以我们防控新冠肺炎中比较出采的健康码为例:

    我们每个人在支付宝上传了我们的相关信息,支付宝根据我们的位置信息、通信信息、健康信息等等给我们及时更新健康码颜色。如果不具有时效性,那么这个健康码就毫无用处。

    三、Variety(多样)

    大数据的数据来源是多样化的,任何在网上能接触到的信息,或者能搜集到的信息,都会成为大数据的基本信息资料。

    每个人的基础信息,包括姓名,年龄,性别,身份证号,电话号码,你日常通过社交软件搜索的内容等等;

    每个地图的信息,经度,纬度,路由,你日常通过导航软件展现出来的信息;

    音乐,视频,文章,图片,你每天在网上浏览的海量数据都是大数据。

    ……

    以上的所有所有,也就是我们人类能接触到的所有信息,都纳入大数据需要存储的范畴。

    四、Value(低价值密度)

    大数据的信息量太多,但是真正有效的,有价值的信息确相当有限。比如,某房产中介商获取了一百万人所有身份信息,但是,对他们有效的信息,只限定在该城市中,有购买能力,有购买需求的潜在对象;而其他所有的信息对于该中介来说,毫无用处。

    对于所有的企业来说,能够从低价值密度中获得对他有效的信息,再对该信息进行精准处理,则相当重要。在这个年代,谁能最快速有效地获取大数据,提取大数据,处理大数据,再变成商业资源,那他就能成为大数据时代的王者。

    五、Veracity(真实性)

    大数据的基础信息是真实的,就看每个企业能否在这海量的真实的基础信息中,获取最有效的资源。

    大数据的挑战:

    当大数据与云计算结合起来之后,大数据就大大向前迈出了一步,大数据给大家的生活带来便利;在这一大跨步当中,安全永远是无法避免的话题。

    想一想,很多购物软件的杀熟,新注册人员能看到价格和老用户不一致,这是不是可怕?

    想一想,如果并非因为疫情原因,有人随便一查就能知道你的位置信息,通信信息,和哪些人接触过,是不是可怕?

    想一想,你现在手机中的很多APP一直在忽悠你打开的权限,是不是可怕?

    当你我在享受大数据的快感的时候,有没有发现自己也是穿着皇帝的新装徜徉在大数据的海洋中。

    在此呼吁相关企业在提取大数据的时候,需要考虑是否符合法律和伦理;国家也需要尽快出台相关的法律,保护大家的安全。