使用PandasAi分析NFL数据
如何使用Pandas Ai进行有效和高效的数据分析?一开始,人们可能会立即开始在键盘上输入一些代码来产生一些结果。然而,这里的目标是利用Ai的恩赐。让我们开始吧!
我们首先要搭建环境,并上传我们将使用的数据集。我们将使用来自NFL大数据碗2024的数据集,可以在Kaggle上找到。
入门指南
首先,我们需要使用Python包管理器pip来将PandasAi安装到我们的Colab笔记本中。请继续运行下面第一行的代码。
接下来的步骤是安装我们将使用的库和数据集。可以直接从我们的Github账户上传数据集,或者可以直接从Kaggle上的NFL Big Data Bowl网站下载。一旦您获得了OpenAi的API密钥,我们就可以开始清理和分析数据。
清理和分析数据
显然,你可以几乎用PandasAi做任何事情。我们能够像平常用代码那样调查数据结构。然而,我们最初只是像平常那样简单地输入命令,直到后来才意识到我们实际上需要输入提示。哎呀!在下面的图片中,你将看到我们成功地能够显示前几行、列、总结统计数据,更改列名,甚至删除缺失值。
准备好开始分析
我们通过对这个NFL数据集进行分析,得出了一些见解,现在我们将在这里分享。
- 哪所大学在这个数据集中培养出了最多的球员?
数据显示,产生最多NFL球员的大学是阿拉巴马州立大学、俄亥俄州立大学、路易斯安那州立大学、乔治亚州立大学,令人惊讶的是圣母大学。前四所大学最近都赢得了国家冠军,而第六所密歇根大学则是今年刚刚赢得冠军。
我们很容易使用PandasAi来提示和可视化排名前10位的美国橄榄球NFL生产大学。
2. 在身高和体重类别中,我们能找到什么洞察力?
很显然,一个人身高越高,体重可能越重。我们发现的一个观点是,在身高为72英寸或6英尺的情况下,球员的体重可以有很大的波动。你可以有一个6英尺高的鼻锋,像迈克尔·皮尔斯那样重达340磅,也可以有一个170磅重的角卫,像迪·奥尔福德那样。这里的离群值是明显的最高的球员是最重的,而最矮的球员是最轻的。
3. 在这个数据集中出现最多的职位是哪个?
根据数据,宽接手的职位出现次数最多,共计218次。如果没有进一步的了解,这可能是因为很多球员在申报NFL时可以转移到接手手或者运动员的职位上。例如,运动型四分卫和较小的紧密型端锋可能会被归为广接手团队。紧接着的是CB,也就是角卫的职位,共有191名球员。事实上,防守球员组中包括角卫和安全卫。这样一来,共计有334名球员,使得这个团队成为最大的一个。
在他们的位置上,球员们有多高?
从以下箱线图和散点图中,我们可以确定某些位置,例如广接球员和跑锋,它们的范围往往很大。在这些位置上,玩家的身高可以是5'7"或6'4"。而像后卫这样的位置似乎有一个较短的范围。这些见解在确定玩家的位置时,可能会被球探们用于参考。例如,一个身高不足6英尺,同时又有运动能力的四分卫可能最终会成为一个广接球员,仅仅基于我们在数据中所看到的情况。我们也留下了箱线图左侧出现的高度列的错误。这告诉我们,PandasAi并不完全没有问题。此外,你可以看到我们再次从提示Ai切换到了代码。哈哈!无论如何,这都是学习过程的一部分。
总之,有效地使用PandasAi就像使用普通代码一样,似乎只受用户自身限制。我们在提供复杂的提示时程序会给出错误。我们发现为了消除错误,我们只需要向Ai明确我们的意思即可。对于我们来说,这是一个正在进行中的工作,我们将继续从中学习。然而,既然我们已经看到了这一点,我们就无法再忽视它。对于任何类型的数据分析师来说,Pandas Ai是一个必备的工具,我们将朝着这个方向努力前进。