高中信息技术学考复习第4章数据处理与应用课时15pandas处理数据课件
展开1.numpy:科学计算(随机数、数组运算等)2.scipy:基于numpy构建。增强了高等数学、信号处理、图像处理、统计等处理能力。3.matpltlib:绘图库4.pandas:基于numpy实现,主要用于数据的处理和分析。(1)Pandas提供了Series和DataFrame两种数据结构完成数据的整理、计算、统计、分析及简单可视化。(2)导入pandas模块:imprt pandas as pd(导入pandas模块,pd为别名)
典例1 下列扩展模块中用于数据处理和分析的是( )A.NumpyD.pandas
Series是一种一维数组的数据结构,由一个数组的数据和一个与数据关联的索引(index),索引值默认是从0起递增的整数。
典例2 编写Pythn小程序建立字典存储如图所示Excel中的选手数据;并利用字典生成pandas的Series对象;输出Series对象,并自动进入修改选手年龄的状态(输入选手的姓名、新的年龄值),当输入为0时,退出修改状态;然后输出年龄审核通过(不超过15岁)的选手名单。程序运行界面和代码如下,请在划线处填上合适的代码。
imprt pandas as pddic={'姚佳云':15,'庄怡婷':16,'孙雁\婷':17,'马能':16,'谢震宇':16,'傅怿成':\17,'沈雯雯':15,'王婧':16}inf=①_________________print(inf)while True:xm=input('请输入需要修改年龄\的人名:')if ②_______________: breaknl=int(input('请输入需要修改的\年龄值:'))③_________________
pd.Series(dic)
inf[xm]=nl
print(inf)ans=''fr i in inf.index:if ④__________________: ans=ans+''+iprint('通过年龄审核的选手是:',ans)
inf[i]<=15
解析 ①用字典创建一维Series数据对象,参数为对象名。②当输入的姓名xm为字符‘0’时,结束修改状态。③修改Series对象值的格式为:对象名[index]=新值。④fr i in inf.index:说明fr遍历Series对象inf的索引,i为每次循环遍历到的index,与之相应的value为inf[i],年龄不能大于15岁。
1.概念DataFrame是一种二维的数据结构,类似于关系表的表格型数据结构,由1个索引列(index)和若干个数据列组成,每个数据列可以是不同的类型。DataFrame可以看作是共享同一个index的Series的集合。其中,每列中的元素类型必须一致,而不同的列可以拥有不同的元素类型。创建DataFrame对象的方法很多,通常用一个相等长度的列表或字典来创建。2.DataFrame对象常用属性
4.主要操作①创建DataFrame对象方法1,使用相等长度列表的字典构建一个DataFrame对象。
方法2,直接读取二维数据文件创建DataFrame对象。
②查看DataFrame数据属性
③查看DataFrame常用方法
④axis(轴说明)及行列操作
典例3 (2023浙江7月学考)某省2022年全年气象灾害预警数据保存在文件“qxyj.xlsx”中,部分数据如图所示,编写Pythn程序,统计全年发布次数最多的5种气象预警。
imprt pandas as pddf=pd.read_excel(″qxyj.xlsx″) #读文件中的数据df=df.drp([″预警发布单位″,″预警等\级″,″预警发布时间″],axis=1) #删除列
________________
print(df_s[0:5])方框中代码由下列语句中的部分语句组成:①df_g=df.grupby(″预警名称″,as_index=False).sum() #分组求和②df_g=df_s.grupby(″次数″,as_index=False).sum()③df_s=df.srt_values(″次数″,ascending=True) #升序排序④df_s=df_g.srt_values(″次数″,ascending=False)要实现上述功能,下列选项中正确的是( )A.①④B.①③C.②④D.③②
解析 本题考查Pandas数据处理知识。根据题意,要求统计全年发布次数最多的5种气象预警,因此在使用分组函数grupby()时,分组的依据肯定是“预警名称”,而不是“次数”,故在①②中选择①。从代码print(df_s[0:5])可知,输出的是最前面的五条记录,从而可以判断数据是按照“次数”降序排序的,srt_values函数的参数ascending=False表示降序,故在③④中选择④。故选A。
典例4 某DataFrame对象df,包含“商品编码”“销售价格”“销售日期”等数据列。下列语句中,能将df对象中的数据以“商品编码”为关键字降序排序的是( )(axis=1,ascending=True)('商品编码',ascending=False)('商品编码',ascending=True,inplace=True)('商品编码',ascending=False,inplace=True)
解析 分析题目,发现解决问题的关键在于将df对象中的数据按“商品编码”从大到小排列。df对象中的数据采用DataFrame结构组织,因此可以使用srt_values()函数按“商品编码”降序排列df对象中的数据。参数ascending=False为降序,inplace=True排序结果替换df中数据,因此本题答案为D。
典例5 小蓝利用Excel收集了某次足球比赛各国球队相关数据,并保存为“足球赛.xlsx”文件,如图a所示。然后他利用pandas模块进行数据处理,分析小组赛中各支球队的表现。(提示:该比赛共分成8个小组,每个小组4支球队,组内各队之间进行一场比赛,每支球队共比赛3场)
(1)(多选题)小蓝在处理数据前,首先进行了数据整理,则下列步骤正确的是( )(注:全部选对的得2分,选对但不全的得1分,不选或错选的得0分)A.E4单元格中的数据存在逻辑错误,需要改成3B.第7行和第8行两行数据重复,直接删除其中一行即可C.英格兰队的所在行存在数据缺失,故无法确定具体数值D.阿根廷所在小组的组别格式不一致,应当将其改成C
(2)小蓝利用pandas模块处理图a中的表格数据,其中部分Pythn程序代码如下。在处理数据的过程中,小蓝提出了以下三项要求。请根据他的要求在划线处填入合适的代码。①首先计算各球队的小组赛积分。积分计算规则为:胜一场得3分,平局得1分,负一场得0分。②然后对各球队进行小组排名。小组排名规则为:按积分降序排序。③最后统计各小组的平均进球数,并绘制成如图b所示的图表。
imprt pandas as pdimprt matpltlib.pyplt as pltplt.rcParams['fnt.sans-serif']=\ ['SimSun']#设置字体为宋体df=pd.read_excel('足球赛.xlsx')df['积分']=①____________________________dfrank=df.srt_values(②_________,\ascending=False) print(dfrank)df2=df.grupby(″组别″).mean()plt.bar(③________________________,label=″平均\进球″) plt.legend()plt.shw()
df['胜'] * 3+df['平'](答案不唯一)
df2.index,df2.进球
(3)小蓝要从df中筛选出积分至少为4分的球队,下列①的操作可行的是________。(单选,填字母) A.df.积分>=4B.[df.积分>=4]C.df[df['积分']>=4]
高中信息技术学考复习必修1第四章课时3编程处理图片、文本数据处理、数据可视化、大数据典型应用课件: 这是一份高中信息技术学考复习必修1第四章课时3编程处理图片、文本数据处理、数据可视化、大数据典型应用课件,共46页。PPT课件主要包含了☆kde密度图,☆常见的分词系统,标签云,城市心情,卡特里娜飓风路径图,答案A等内容,欢迎下载使用。
高中信息技术学考复习必修1数据与计算第四章课时2编程处理数据教学课件: 这是一份高中信息技术学考复习必修1数据与计算第四章课时2编程处理数据教学课件,共60页。PPT课件主要包含了答案C,常用属性,常用函数等内容,欢迎下载使用。
高中信息技术学考复习必修1数据与计算第四章课时1大数据处理的基本思想与架构教学课件: 这是一份高中信息技术学考复习必修1数据与计算第四章课时1大数据处理的基本思想与架构教学课件,共34页。PPT课件主要包含了高一各班总分平均值,热门省份Top5,学科百分比示意图,性别比例,大数据处理类型,Hadoop组成等内容,欢迎下载使用。