机器学习的抽奖活动及模型相关知识介绍

虽然我知道朋友们这个这个有可能是奔着报课来的,是吧?或者是奔着其他目标来的,不一定是为了抽奖,但是我们觉得我们这个这个运营老师会提醒我说我们需要抽奖。好的,那接下来呢我就开始我们今天的我讲这段内容当中第一波抽奖,就是我本人所写的这本书,叫做Cooper notice进阶实战的第二版。因为我今天的直播有两个平台,一个是我们的视频号,一个是我们马克教育的自有的这个上课的平台。我相信我们的这个直播间的同学,没准有一些是在我们的视频号的平台上,可能也有一些同学是在我们马克教育的自有的这个学习平台上的。我今天两个平台同步进行抽奖,注意啊,两个平台同步进行抽奖。好的,视频号的同呃这个这个直播间的朋友们呃,路走过路过不要错过是吧?可以这个呃注意一下我们的运营老师发的福袋,并且同时在我们的这个这个呃评论区评论区是吧。按照我们的这个以往的惯例,发一个马哥出品必属精品来做一个互动。然后看看有多少同学仍然在直播间当中。那随后呢这里这里啊在我们的视频号的直播间当中,好像有福袋已经发出了。但我们马克教育的自有平台上的这个抽奖应该也已经发出了。好的,我这里呢就时间呢很宝贵,我不会在这里再继续等待朋友们的这个抽奖结果。等会儿结果出来之后呢,我就继续宣布。那请允许我再提醒一下视频号直播间的同学们,记得啊在我们的左上角的那个logo下方应该会有一个福袋。那福袋有个倒计时时间,大概会有两分钟左右,还有一分半钟是吧?然后在我们自有平台上呃也会有我们的抽奖方式。好的,那随后开讲时总时长是三分钟,我这里不啰嗦啊,等会儿我再回头来说这个,在公布我们中奖同学的信息,我继续进行我们刚才的话题。好,通过我们刚才的描述,大家想必应该已经了解了。所谓的机器学习其实就是一种特殊的呃特定的算法。这个算法可能很很复杂可能会很复杂。比如像什么线性回归、决策树、呃,人工神经网络,听起来就让人这个头猛。而这种算法呢它能够把人输入进来的数据作为未进来的这个啊原材料。随后呢在这个原材料的分析之或者叫通过对这些原材料的分析,能够找出其对应的规律性认知。这个规律性认知所沉淀下来的结果,你可以理解为就是说我们学习得到的知识。这个知识我们也把它称为叫做模型。不是说这儿各位是不是也可以明白。所以一般来讲,我们机器学习的生命周期大概会有这样几个部分组成。我们来看呃大概会有这样几个部分组成。我们看有或者有有这样几个阶段组成,有哪几个阶段呢?我们一块儿来看一看。首先喂首先第一个阶段呢,我们可以理解为叫做。对,稍等都拿了。第一个呢我们称为叫做收集数据的过程。收集完数据以后,我们需要对数据做一些预处理。这个预处理当中有一个非常重要的阶段,就是我刚才所提到叫特征工程。我们要抽取出来我们我们这个数据的特征,要告诉我们的目的其实就是告诉我们算法大概这些维度的特点是我们最为关注的方向,让让我们机器学习的算法有一个基本的参考。好说到这儿,刚看到我们的这个好像已经开奖了是吧?视频号直播间的同学,我们这个这个这个这个奖品的中奖者的信息应该已经出来了。好的,中奖的同学请务必联系一下我们的这个客服小姐姐啊,联系一下我们的客服小姐姐,然后去这个去去去去登记一下我们的中奖信息。同样的在我们的这个马克教育平台自己的直播间的同学也要注意一下啊。如果是中奖的同学,请联系主动联系一下我们的客服小姐姐,去登记一下个人的中奖信息啊,免得这个错失了我们的奖项。好了,我们继续说最后第三个阶段呢。第三个步骤就是我们所谓叫选择模型并进行训练的步骤。这个步骤也是时间最长。可能一般而言,我认为说叫时间最长,也很可能是作为麻烦的过程。尤其尤其是当我们的数据量非常非常大我的模型有非常非常复杂。大家知道我们现在的很多主流的模大模型,为什么叫大模型?就是它的参数非常的多。那这里的参数呢可能都数以千亿甚至是万亿计。注意的概念动不动都是上百个,就是数百个三位数的B你可以理解这个B指的是卑劣,都是上千亿的参数,甚至有一些更过分的,都已经上了多达上万亿的参数。这些上万亿参数的对应的模型,如果我们需要在我们的计算资源上进行所谓的抽取,学习出其一般特征的话,是很难在短时间内完成 的。他们很可能短则几个小时、三五天,长则数月才能完成所谓的模型训练。当然这很可能取决于我们所选择的算法,我们的数据量和我们的平台的计算能力。而这个计算能力很显然依赖的最为重要的计算资源就是我们的GPU了。越更越多了对不对?那这些GPU啊考虑到这个贸贸易战的问题是大家也知道我们很可能得不到目前来讲最新的也是性能最强的GPU。所以呢这对我们而言不得不说是一种技术封锁啊,科学无国界,上来都都是骗人的,我也知道的,对不对?那我们继续往后啊,这个不不发这种感慨。当我们模型训练完之后,它到底行不行?注意啊我评析评估一个模型,它的预测结果到底准不准,它的准确率有多高。我们通常用一个词儿来描述的叫性能。注意模型的性能和我们过去所描述的这个所谓的一个计算机的性能,它完全是两回事。这里主要就是指我们模型训练结果当中对于新数据新问题的预测的准确率准确率以及对应的召回率等相关概念的,或者叫相关指标的评估来来来来得到的。所以我们一旦训练完成之后,我们要去评估我们的模型的性能究竟能达到哪个级别,这两个要注意。那怎么评估呢?那一般来讲我们可能需要通过我们的把我们的数据啊,一般来说我们把我们数据通常会切割成三个部分,有训练集,在训练时使用。比如我们有多一个数据集,通常会把80%拿来用作训练使用。随后呢剩下的20%当中,10%你可以理解为拿来做当测试集,再招10%拿来做验证集。那验证集你可以理解为就是我训练一段阶段以后,到底现在训练的训练好了没,该不该结束。那我就可以拿其中的一部分数据当验证集来验证一下。但是各位要注意,你的测试集是一定不能提前暴露给你的模型的。因为这样的话会导致我们的数据得到或者我们的模型得到污染。它很有可能猜的很准,但是因为他提前得到答案了而已。这个我要要有所了解,然后接下来可能还需要面向。一般来讲我们这里训练的模型到今天为止强调的大多数都是大模型,而且或者叫称为叫基础模型。它没有面对某个特定领域,特定方向去训练,而只是给他做通识教育的,或者叫通识训练的那这种呢我们称为基础模型。各位也知道,就好像一个人学习学到了高中毕业学到的都是那些基础的通识教育的内容。随后到大学以后,我开始选专业了。什么土木工程是吧?生化环材四大天坑方向的。我比如学了生物学,学了化学,学了材料学等等。不但不管怎么讲,你这大学就称为叫专业。而面向特定的方向的专业,这些只有通识是不够的,或者说是不不足啊不足以承载其它在某一特定领域当中的这个性能的。因此我随后还要把我的模型面向某个特定领域的具体应用时,那做一些调整,做一些优化。这个过程我们称叫微调,各位要了解,也就所谓叫调参。好,一旦微调结束,我们测试也没问题了。那接下来就可以把它模型面向生产进行部署就可以去用了。OK随后就是我们的模型维护期了。在大体上机器学习或者我们深度学习的生命周期就有这么几个对应的阶段组成。它的包括了再重复一遍,你首先要要要获取到数据啊,它通过你的传感器也罢,或者通过各种方式也罢,你要收集的数据。所以数据才是我们所谓的叫做人工智能时代的核心资产,不是吧?叫叫叫叫矿藏。随后呢我们要对数据做一些预处理,然后我们要选择模型对这些数据进行啊进行加工,做原材料进行加工,抽取出一般性的认知和规律训练并生成这个结果。我们也称把结果就称为叫模型。所以呢我要去评估模型啊,在面向某个特定的方向和领域进行微调。微调结束之后,下一个就是我们要去部署,随后呢就是我们维护过程这种机器学的生命周期。而整个模型的训练流程,根据我刚才已经描述过,大体上分成这样几个步骤,这个图当中给出了描述给我来看。首先当我们开始训练之后,当我们开始训练我的任务的时候,你要获取数据,切割数据。刚才说过分成我们的训练集,我们的测试集。随后呢我们要看看我们的这个数据。我们接下来训练是监督训练还是无监督的训练模型啊,如果是无监督的训练模型的话?那就需要使用其他的特定的这个这个算法来实现。如果是有监督的训练模型的话,那就意味着我们此前可能还有一个阶段?就是特征工工程的阶段。然后呢,接下来我们要看看我们这个数据是离散的还是连续的。如果是呃连续的数据,我们接下来就是要做回归的,你可以理解就是做预测的那如果是离散的数据呢,我们就是要做分类的。你可以理解为就是比如我们识别中一个图片当中是猫还是狗。大家知道这是一个经典的案例,对不对?那这就是所谓叫做分类的。好,但是我们确定我就说我们要确定好我们的目标,我们的方向之后,接下来就可以训练一班训。做测试好是因为我的测试结果。我们接下来就来看一看到底成不成。Ok最后就能进入结束。底下这些是关核心啊,这些这个比较复杂的数据我这里就不再做介绍,大体上朋友们对这个基本基本的了解就可以了。所以根据我们刚刚的描述,小B哥们应该呃朋友们应该已经知道我们的模型啊主要分成两大类。目前来讲两大主流的方向。第一第一就是分类?对于我们的数据做一个复杂的这个这个这个这是就是大量的海量数据,我们能够给它做分拣,这个我们称叫分类。我们识别中识别一张图片当中是猫是狗还是其他的物,或者是其他的这个物品,这种我们叫分类。第二种呢我们称叫回归。所回归呢你可以理解为就是对我们基于过去的数据的规律,对未来的数据做一个预测。那一般来讲?我们认为分类的数据用于分类的数据都是离散的数据样本。用于呃用于这个预测的数据呢都是一些所谓的连续的数据样本。比如像房价走势,股票价格走势等等,这些就可理解为就是连续的。而像刚才我所说的啊,我们去区别一个一个一个人说了一句话之后,他到底是开心还是难过,对吧?给了一张图片以后,他到底是猫还是狗等等。这其实就存在上是一种是一种分类。但无论是分类还是回归,其实从本质上来讲,各位要注意我们的模型。不好意思,有点感冒。我的模型本质上其实就是一个函数。你可以理解为如果有编程性的同学知道,对一个函数来讲,我给他一个输入,它就能生成一个输出,这个输出就是我们所处理的结果。但是即模型为什么要用机器学习或者深度学习来获取这个函数?其实这个函数很可能在人类的认知当中是没有办法来描述,也没有办法来理来来通过常规的方式来进行理解的。真的到今天为止,究竟我们的GPT,就是我们的ChatGPT或者是我们的拉玛这样的大模型?它在学习之后所生成的那个模型的结构究竟内部是什么?是一个什么样的函数,没有人能够真正的理解它,这点要要给朋友们说清楚。你可以想象一下上千亿甚至是上万亿个参数,它所代表的那个函数究竟是啥?没有人能够描述清楚。但比较诡异的是,它就是能够对你的输入做出非常准确的预测。这个准确率就是刚才所说的性能嘛,一般来讲很可能得99%,甚至99.5%以上我才能接受的。那么我可以想见,我们人自己去面向某个新问题进行预测,也未必预测的准确率能达到这个地步的。但是我们深度学习或者我继续学习所训练出的模型,它就是能够达到这个级别,就是能够达到这个标准。但我们要描述的是这个模型其实从某种意义上来讲,它其实就是一个函数。只是这个函数太复杂到已经超出了人类 的理解能力。这样讲大家是否能够能够搞得明白。好了,这就是就是所谓的模型的真相。那为了能够让我们的模型训练出来,我接下来可能没办法通过我们的PPT1页一页给大家进行描述。那我就干脆直接画个图给大家进行描述一下,看各位能不能差不多跟得上我们这里所描述的意义或者概念了。
《机器学习入门攻略:从抽奖到模型构建全解析》

机器学习如今应用广泛,但其复杂概念常让人望而却步。本次攻略将深入浅出地为你讲解,助你轻松入门。

抽奖环节是学习契机。直播抽奖中,两个平台同步进行,视频号有福袋,自有平台也有抽奖方式。参与互动,按惯例发“马哥出品必属精品”,留意中奖信息,中奖后及时联系客服登记。

深入了解机器学习模型。它主要分分类和回归两大类。分类用于分拣海量数据,如识别图片中物体;回归则基于过去数据规律预测未来,像房价走势预测。

构建模型有严谨流程。首先收集数据,这是核心资产,接着做预处理,其中特征工程很关键,它为算法提供关注方向。然后选择模型训练,此步骤耗时久、较复杂,尤其大模型参数众多。训练完评估性能,通过切割数据成训练集、测试集、验证集来评估,测试集绝不能提前暴露给模型。基础模型训练后,针对特定领域微调优化,最后部署应用,进入维护期。

掌握这些,你就能逐步走进机器学习的奇妙世界,开启探索之旅!
机器学习,抽奖,模型,分类,回归,数据预处理,特征工程,微调
share