什么是大数据 - 一个简单的例子解释

大数据(Big Data)一词在地球上几乎无处不在——线上和线下——越来越多地使用。它不仅与计算机有关。它属于一个称为信息技术(Information Technology)的总称,现在几乎是所有其他技术以及研究和业务领域的一部分。大数据(Big Data)不是什么大问题。围绕它的炒作肯定会让你感到困惑。这篇文章来看看什么是大数据(Big Data)。它还包含一个NetFlix如何使用其数据(或者更确切地说是大数据(Big Data))来更好地满足客户需求的示例。

什么是大数据

什么是大数据

存放在贵公司服务器中的数据直到昨天还只是数据——经过分类和归档。突然间,俚语Big Data流行起来,现在你们公司的数据是Big Data。该术语涵盖了您的组织迄今为止存储的每一条数据。它包括存储在云中的数据,甚至包括您添加书签的URL(URLs)。您的公司可能尚未将所有数据数字化。您可能尚未构建所有数据。但是,贵公司的所有数字、论文、结构化和非结构化数据现在都是大数据(Big Data)

简而言之,您服务器中存在的所有数据(无论是否分类)统称为大数据(BIG DATA)。所有这些数据可用于通过不同类型的分析获得不同的结果。不必所有分析都使用所有数据。不同的分析使用大数据(BIG DATA)的不同部分来产生必要的结果和预测。

大数据(Big Data)本质上是您分析结果的数据,可用于预测和其他用途。当使用“大数据(Big Data)”一词时,突然之间,您的公司或组织正在使用顶级信息(Information)技术,使用您多年来有意或无意存储的相同数据来推断不同类型的结果。

大数据有多大

从本质上讲,所有数据组合在一起就是大数据(Big Data),但许多研究人员同意,大数据(Big Data –)本身不能使用普通的电子表格和常规的数据库管理工具进行操作。他们需要像Hadoop(Hadoop)这样的特殊分析工具(我们将在另一篇文章中对此进行研究),以便可以一次性分析所有数据(可能包括分析迭代)。

与上述相反,虽然我不是该主题的专家,但我会说任何组织的数据——无论大小,有组织或无组织——都是该组织的大数据,该组织可以选择自己的工具来分析数据。(Contrary to the above, though I am not an expert on the subject, I would say that data with any organization – big or small, organized or unorganized – is Big Data for that organization and that the organization may choose its own tools to analyze the data.)

通常,为了分析数据,人们习惯于根据一个或多个常见字段创建不同的数据集,以便分析变得容易。在大数据(Big Data)的情况下,不需要创建子集来分析它。我们现在拥有可以分析数据的工具,无论数据有多大。很可能,这些工具本身即使在分析数据时也会对数据进行分类。

我觉得重要的是要提到Jimmy Guterman的《大数据》一书中的两句话:

Big Data: when the size and performance requirements for data management become significant design and decision factors for implementing a data management and analysis system.”

-和-

“For some organizations, facing hundreds of gigabytes of data for the first time may trigger a need to reconsider data management options. For others, it may take tens or hundreds of terabytes before data size becomes a significant consideration.”

所以你看到,容量和分析都是大数据(Big Data)的重要组成部分。

阅读(Read)什么是数据挖掘?(What is Data Mining?)

大数据概念

这是大多数人不同意的另一点。一些专家说,大数据概念(Big Data Concepts)是三个 V:

  1. 体积
  2. 速度
  3. 种类

其他一些人在这个概念中添加了几个 V:

  1. 可视化
  2. 真实性(可靠性)
  3. 变异性和
  4. 价值

我将在另一篇文章中介绍大数据(Big Data)的概念,因为这篇文章已经变得越来越大。在我看来,前三个 V 足以解释大数据(Big Data)的概念。

大数据示例——NetFlix 如何(Big Data Example – How NetFlix)使用它来解决问题

到 2008 年, NetFlix(NetFlix)发生了一次中断,导致许多客户被蒙在鼓里。虽然有些人仍然可以访问流媒体服务,但他们中的大多数人不能。一些客户设法获得了他们租用的DVD(DVDs),而另一些客户则失败了。《华尔街日报》(Wall Street Journal)的一篇博文称,Netflix刚刚开始点播流媒体。

停电使管理层考虑未来可能出现的问题,因此;它转向大数据(Big Data)。它使用该数据分析了高流量区域、易受攻击的点和网络吞吐量等,并对其进行处理,以减少在全球范围内出现未来问题时的停机时间。这是华尔街日报博客(Wall Street Journal Blog)的链接(the link),如果您想查看大数据(Big Data)的示例。

以上用外行的语言总结了什么是大数据。您可以称其为非常基本的介绍。我打算再写几篇关于相关因素的文章——概念(Concepts)分析(Analysis)工具(Tools)、大数据的使用(uses of Big Data)、大数据 3 V等。同时,如果您想在上面添加任何内容,请评论和分享和我们。

阅读下一篇(Read next):什么是网页抓取(Web Scraping)



About the author

在商业和技术方面,Windows 10 和 Windows 11/10 是非常重要的工具。它们使您可以比以往更轻松、更安全地与计算机交互,并运行功能强大但可自定义的应用程序,而不会带来任何安全风险。这些工具对于希望能够扩大其在线业务并吸引新客户的企业来说也是必不可少的。因此,我会说我在 Windows 10 和 Windows 11/10 方面的技能使我成为此类工作或业务的理想人选。



Related posts