在19世纪,医生可能开出了汞用于治疗情绪波动,而砷则用于治疗哮喘。在您进行手术之前,他们可能没有洗过手。他们没有试图杀死你,当然-他们只是不知道任何好转。
这些早期的医生在笔记本写有价值的数据,但每个人只能在一个巨大的拼图游戏中保留一张。如果没有现代的工具来共享和分析信息,也没有科学的方法来理解这些数据,那么就没有什么可以阻止迷信取代通过可观察的事实的关键孔可以看到的东西了。
从那时起,人类在技术上已经走了很长一段路,但是今天的机器学习和人工智能的繁荣并没有真正打破过去。理解我们周围世界是人类基本本能的延续,以便我们做出更明智的决策。我们拥有比以往任何时候都更好的技术。
今天的AI繁荣并不是与过去的突破。我们拥有比以往任何时候都更好的技术。
考虑一下Sumer(现代伊拉克)的抄写员,他们在5,000多年前就将其笔针压在粘土片上。当他们这样做时,他们不仅发明了第一个书写系统,而且发明了第一个数据存储和共享技术。
而从字面上看,检索是一件痛苦的事!
如果您对AI优于人类的能力的承诺感到鼓舞,请考虑文具会带给我们超人的记忆。尽管现在很容易将写作视为理所当然,但是可靠地存储数据集的能力代表了迈向更高智能的第一步。
如果您对AI优于人类的能力的承诺感到鼓舞,请考虑文具会带给我们超人的记忆。
不幸的是,从没有电子表的数据中检索信息是一件痛苦的事情。您无法用手指抓住一本书以获得字数统计。相反,您必须将每个单词上传到大脑中进行处理。这使得早期的数据分析非常耗时,因此最初的尝试固守了要点。尽管一个王国可以分析它从税收中筹集了多少黄金,但只有一个勇敢的人会在诸如医学之类的应用程序上尝试相同的费力推理,而数千年的传统鼓励这种情况。
幸运的是,我们的物种产生了一些不可思议的开拓者。例如,约翰·斯诺(John Snow)激发了医学界重新考虑这种疾病是由有毒的坏空气引起的迷信,并开始仔细研究饮用水。
如果您知道(《有灯的女人》,以她对护士的英勇同情,您可能会惊讶地发现她也是分析师先驱。在克里米亚战争期间,她极富创造力的信息图表给出不良的卫生状况是医院死亡的主要原因,并激励她的政府认真对待卫生设施,挽救了许多生命。
单数据集时代开始了,信息的价值开始在越来越多的领域中确立起来,从而导致了计算机的发明。不过,不是咱们今天习惯的电脑伙伴。
"计算机"最初是人类的职业,其从业人员执行计算和手动处理数据以提取其价值。
数据的优点在于,它使我们可以凭空想出更好的意见。通过查看信息,可以激发我们跟随佛罗伦萨·南丁格尔和约翰·斯诺的足迹提出新的问题。这就是分析师的全部内容:通过探索启发模型和假设。
不幸的是,如果没有第二个数据集,将无法知道这种基于观点是否是胡说八道。它可以在查特定数据点之外正常工作吗?现在进入20世纪的分析。
您无法相信自己的发现,因为您的潜意识偏见使您非常容易关注感兴趣的内容,而错过所有其他内容。您可能认为您已经看到了所有可以看到的东西,但是实际上您几乎没有刮擦表面。人类的注意力范围和记忆力比我们想像的要小,因此探索性数据集通常是我们的。
分析是关于灵感和探索的,但超出所探究数据范围的观点不能被认真对待。
要测试您对数据之外的世界的工作方式的看法,您不能一开始就使用促发该观点的数据。虽然该芯片看起来像猫王,但我们不能用它来推断大多数芯片都可以。要了解我们的观点是否会受到启发他们的例子之外的重视,我们必须在我们从未见过的新芯片上对其进行测试。
20世纪初,在不确定性下做出更好决策的愿望导致了并行行业的诞生。统计人员可以帮助您测试行为是否明智,就好像某种现象也适用于当前数据集之外。
著名的例子来自罗纳德·费希尔,他开发了世界上第一本统计学教科书。费舍尔(Fisher)描述了一项假设检验,以回应他朋友的说法,即她可以品尝在喝水之前还是之后将牛奶添加到茶中。为了证明她是错的,数据迫使他断定她可以。
严格的统计要求您在拍摄之前先进行拍照;分析更像是事后的游戏。
有一个主要的致命弱点:如果您使用相同的数据点进行假设生成和假设检验,那么您就在作弊。如果您选择使用数据来代替严谨而不是灵感,那么您就必须从别处获得灵感。经典消息来源在认真思考。换句话说,您坐在扫帚壁橱里打坐,仔细地构想自己的统计问题,阐明所有假设,然后就可以测试世界上的心理模型是否真正积水了。
不幸的是,以数学方式测试您的直觉需要花费大量的精力和训练。您需要相当的精神专注。但是至少现在您有一种合法的方法来检查您的印象是否值得采取行动。欢迎使用1900年代后期的。
严格的统计要求您在拍摄 ; 更像是事后的游戏。这些学科在交通上几乎是,直到下一次重大革命()改变了一切。
数据拆分是一个简单的想法,但对像我这样的来说,这是最深刻的想法之一。如果只有一个数据集,则必须在(令人鼓舞的灵感)和(严格的结论)之间进行选择。骇客?将您的数据集分为两部分,然后吃点蛋糕也吃!
两数据集时代取代了 - 与两个不同的协调与合作数据的专业公司。分析师使用一个数据集来帮助您提出问题,然后统计学家使用另一个数据集来为您提供严格的答案。
将您的数据集分为两部分,然后吃点蛋糕也吃!
这样的奢侈品带有高昂的价格标签:数量。如果您很难为一个受人尊敬的数据集收集足够的信息,那么说起来容易做起来难。两数据集时代是一个相当新的发展,它与更好的处理硬件,更低的存储成本以及通过Internet共享收集的信息的能力紧密结合。
实际上,导致两数据集时代的技术创新迅速进入了下一阶段,即自动灵感的三数据集时代。有一个更熟悉的词:。
曾经想过为什么在涉及严格性和数据性时,为什么统计学家倾向于倾向于抽搐呢?在计划问题之前先查看数据集会破坏其作为统计严谨性来源的纯度。如果您问错了问题或愚蠢地提出了问题,那么您就不必第二次询问神谕了。
即使您正在考虑进行多个比较校正(每个数据集允许多个假设的统计方法),也只有在事先计划所有假设时,该程序才有效。您不允许在测试数据集中玩20个问题,迭代地放大发光的结果,并假装保持双手清洁。
测试仍然是一针见血的提议-不允许您迭代地寻求解决方案。
为了使这种严格的方法有效,您必须预先计划,如果存在多个问题,请使用一些道歉的数学运算,然后同时执行一次测试。您不能多次打开该测试数据集。
既然您只有一个机会,您如何知道分析中最值得测试的"洞察力"?好吧,如果您有第三个数据集,则可以用它来激发您进行测试的灵感。这个筛选过程称为 ; 这是使的核心。
验证是使机器学习更上一层楼的核心-它使您可以自动激发灵感。
一旦您有空将所有内容扔到验证墙上,看看有什么问题,您就可以放心地让每个人都提出解决方案:经验丰富的分析师,实习生,茶叶甚至是与您的业务问题无关的算法。哪种解决方案在验证方面最有效,都将成为进行适当统计检验的候选人。您刚刚授权自己可以自动化灵感!
这就是为什么机器学习是数据集而不是数据的一场革命。这取决于是否有足够的数据进行三路拆分。
人工智能在哪里适合?基于深度神经网络的机器学习在技术上被称为深度学习,但它又有一个绰号AI。尽管AI曾经有,但今天您最有可能发现它被用作深度学习的同义词。
深度神经网络在许多复杂任务上胜过不那么复杂的机器学习算法,因此赢得了炒作。但是它们需要更多的数据来训练它们,并且处理要求超出了典型笔记本电脑的处理要求。这就是为什么现代AI需要云计算,云使您可以租用他人的数据中心,而不必致力于构建您的深度学习平台。
有了这个拼图,我们就可以充分利用以下专业:ML/AI,分析和统计。涵盖所有这些术语的总称被称为数据科学。
现代是我们三数据集时代的产物,但是许多行业通常会生成足够多的数据。那么是否有四个数据集的案例?
好吧,如果您刚刚训练的模型的验证分数很低,您的下一步行动是什么?如果您像大多数人一样,您将立即要求知道为什么!不幸的是,您没有数据集可以询问。您可能很想研究验证数据集,但是不幸的是,调试破坏了它有效筛选模型的能力。
通过对验证数据集进行,可以有效地将三个数据集变回两个。您没有寻求帮助,而是不经意地回到了一个时代!
该解决方案不在您正在使用的三个数据集中。要解锁更智能的训练迭代和超参数调整,您将需要加入最前沿:四个数据集的时代。
最前沿的是四路数据分割,以实现加速!
如果您认为其他三个数据集可以为您提供灵感,迭代和严格的测试,那么第四个可以加速,通过先进的技术缩短AI开发周期,这些技术可以提供有关每轮尝试方法的线索。通过采用四向数据拆分,您将处在最佳位置以利用!
FPFA兔兔爸 2020-3-12 09:21