dataframe相同值合并,两个dataframe合并并去除相同的

　　Pandas是一个非常好用的库，总结了Pandas DataFrame的常用用法，在使用过程中可以立即找到。

　　Pandas DataFrames是一个带有标记行和列的二维数据结构，可以存储多种类型的数据。如果熟悉Excel，可以像查看电子表格一样查看熊猫数据框。

　　一.导言

　　进口编号为NP

　　进口熊猫作为pd

　　二。规划

　　data=NP.array ([ 1，2，3 ]、[ 4，5，6 ]、[ 7，8，9 ])

　　c=[a ， b ， c]

　　r=[A ， b ， C]

　　df=PD.dataframe(data=data，columns=c，index=r).

　　三。整理

　　按列名和行名排序

　　#行名降序排序

　　df.sort_index(axis=0，ascending=False))))).

　　#列名降序排序

　　df.sort_index(axis=0，ascending=False))))).

　　按值排序

　　拿出来重新排序。

　　df [ a ]。sort _ values(升序=false)

　　Df内部排序

　　df.sort_values([a ， b ， c]

　　四。索引

　　位置索引

　　选择df.iloc[2] #行中的所有数据。是系列类型。

　　选择df.iloc[[2]] #行中的所有数据。数据类型

　　Df.iloc [:2]选择第2列中的所有数据。是系列类型。

　　选择df.iloc[:[2]] #列中的所有数据。数据类型

　　从df.iloc [:0:2] # 0选择两列中的所有数据。

　　选择df.iloc [[2，3]，0:2] #行和第三行以及0到2列中的所有数据。

　　Df.iat [1，1] #推荐使用该方法快速检索数据，并根据位置检索个别数据。

　　自定义索引

　　Df.loc[top] #选择指定的行数据。是系列类型。

　　Df.loc[[top]] #选择指定的行数据。数据类型

　　Df.loc[: xm] #当指定的列数据被选中时，它将变成系列类型。不推荐。

　　Df.loc[:[xm]] #选择指定的列数据将更改为DataFrame类型。不推荐。

　　Df.loc[:[bj ， xm]] #选择多栏数据(不推荐)))))。

　　Df.loc[: bj:xb] #选择多列之间的所有数据。列只能以这种方式使用。

　　Df.loc[[top ， count]， bj:xb] #选择指定的行并指定列数据

　　Df.at[top ， xm] #建议使用此方法快速检索数据，并根据自定义索引检索单个数据。

　　布尔索引

　　#选择出生日期在1998年以上的所有数据。下面是字符串比较。

　　df[df[csrq]=1998]

　　#选择出生日期在1997年和1999年之间的所有数据。

　　Df () df(csrq) )=1997))数据)csrq)。

　　#选择出生日期在1997年和1999年之间的所有数据。

　　df[df[csrq]。介于( 1997 ， 1999 ) ]

　　#选择出生日期大于1997年的所有数据或名称为cqdwk的数据。

　　df[(df(csrq ) ]=1997年数据))XM )==cqdwk ) ]

　　#另一个选项(不推荐。实测效率低于以上))))))))。

　　df[df.csrq=1998]

　　#选择字段值为指定内容的数据

　　df[df[xm]。isin([cqdwk ， xfdc])

　　动词（verb的缩写）插入和删除

　　假设#CJ列还不存在，将在该列的末尾添加一个新列CJ。值为s(系列对象)，位于此位置。

　　df[cj]=s

　　在值为s的#1列的位置插入dz(地址)列。此时

　　df.insert(0， dz ，s)).

　　# df2(必须是数据框对象的新列)内容)添加列)到df。不是那个地方。

　　df.join(df2))。

　　将df2行添加到df(添加行)的末尾，而不是就地添加。

　　附加(df2))

　　#删除单个列，返回被删除的列，并返回到原始位置

　　df.pop(XM)).

　　#删除指定行，不存在

　　df.drop(1)).

　　#删除指定的列，

　　Axis=1是指第二维度，Axis默认为0，不到位。

　　df.drop([xm ， xh]，axis=1)

　　不及物动词数据帧的重要方法和属性

　　重要属性

　　Df.value #查看所有元素的值

　　Df.dtypes #查看所有元素的类型

　　Df.index #查看所有行名

　　Df.index=[total ， different ， maximum ， frequency] #重命名行名

　　Df.columns #查看所有列名

　　Df.columns=[class ， name ， gender ，生日] #重命名列名

　　Df。T #转置测向，非原位

　　查看数据

　　Df.head(n) #查看Df中的前n条数据，默认为5条

　　Df.tail(n) #查看Df后的n条数据，默认为5条。

　　Df.shape() #查看行数和列数

　　Df.info() #查看索引、数据类型和内存信息

　　统计

　　Df.describe() #查看数据值列的汇总统计信息，它属于DataFrame类型。

　　Df.count() #返回每列中非空值的数量

　　Df.sum() #返回各列之和，如果无法计算则返回null，下同。

　　df . sum(numeric _ only=true)# numeric _ only=true表示只计算数值型元素，下同。

　　Df.max() #返回每列的最大值

　　Df.min() #返回每列的最小值

　　Df.argmax() #返回最大值所在的自动索引位置。

　　Df.argmin() #返回最小值所在的自动索引位置。

　　Df.idxmax() #返回最大值所在的用户定义的索引位置。

　　Df.idxmin() #返回最小值所在的自定义索引位置。

　　Df.mean() #返回每列的平均值

　　Df.median() #返回每列的中值

　　Df.var() #返回每列的方差

　　Df.std() #返回每列的标准偏差

　　Df.isnull() #检查Df的空值，如果NaN为真，否则为假，返回一个布尔数组。

　　Df.notnull() #检查Df的空值，如果非NaN为真，否则为假，返回一个布尔数组。

　　七、转换为Numpy

　　df.values

　　数组

　　八。实际应用

　　获取BTC/USDT在过去10天的收盘标准差。

　　#计算标准偏差

　　因为_days=10

　　test_symbol=BTC/USDT

　　#计算时间点

　　three dayago=(datetime . datetime . now()-datetime . time delta(days=since _ days))

　　因为timestamp=int(time . mktime(three dayago . time tuple())*1000 #转换成时间戳，* 1000转换成13位的毫秒时间戳。

　　tickers_list=币安_交易所. fetch_ohlcv(测试_符号，时间范围=1d ，自=自时间戳)

　　# print(len(tickers_list))

　　#打印(tickers_list)

　　kline_data=pd。数据帧(tickers_list)

　　kline_data.columns=[Datetime ， Open ， High ， Low ， Close ， Vol]

　　打印(kline_data)

　　print(describe:\n ，kline_data.describe())

　　std=kline_data[Close]。标准()

　　打印(标准偏差：，标准)

　　打印：

　　日期时间开盘高/低收盘体积

　　0 1590192000000 9170.00 9307.85 9070.00 9179.15 43526.296966

　　1 1590278400000 9179.01 9298.00 8700.00 8720.34 70379.866450

　　2 1590364800000 8718.14 8979.66 8642.72 8900.35 62833.910949

　　3 1590451200000 8900.35 9017.67 8700.00 8841.18 58299.770138

　　4 1590537600000 8841.00 9225.00 8811.73 9204.07 68910.355514

　　5 1590624000000 9204.07 9625.47 9110.00 9575.89 74110.787662

　　6 1590710400000 9575.87 9605.26 9330.00 9427.07 57374.362961

　　7 1590796800000 9426.60 9740.00 9331.23 9697.72 55665.272540

　　8 1590883200000 9697.72 9700.00 9381.41 9448.27 48333.786403

　　9 1590969600000 9448.27 9619.00 9421.67 9542.47 15797.593487

　　描述：

　　日期时间开盘高/低收盘\

　　计数1.000000 e 01 10.000000 10.000000 10.000000 10.0000000

　　平均值1.590581 e 12 9216.103000 9411.791000 9049.651000 9253.651000

　　标准2.615890 e 08 325.1688891 282.58586586

　　最低1.590192 e 12 8718.140000 8979.660000 8642.20000 8720.340000

　　25% 590386 e 128967.76250092435

　　50% 1.590581 e 12 9191.540000 9456.555000 9090.000000 9315.570000

　　75% 1.590775 e 12 9442.852500 9623.852555009

　　最大值1.590970 e 12 9697.720000 9740.000000 9421.670000 9697.720000

　　卷（volume的缩写）

　　数10.000000

　　平均55200 . 36363863637

　　标准16943.615232

　　最小15360 . 686868686615

　　25% 50166.657937

　　50% 57837.066549

　　75% 67391.244373

　　最大7410.787662

　　标准偏差：18860 . 688888886816

　　熊猫数据帧摘要

　　Python熊猫数据框架的创建(20)

　　Python熊猫数据帧元素访问(21)

　　关于查找教程网络

　　本站仅代表作者观点，不代表本站立场。所有文章均免费分享，不以盈利为目的。

　　该网站提供软件编程、网站开发技术、服务器运维、人工智能等IT技术文章。希望程序员好好学习，让我们用科技改变世界。

　　[3358 www.zyiz.net/tech/detail-138134.html[熊猫数据帧使用]概要

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读