Pandas:Python数据分析利器,轻松驾驭海量数据
Pandas是Python中最流行的数据分析库之一,无论数据集大小,都能轻松完成数据清洗、转换和分析。本文将演示如何使用Pandas获取和处理数据,并将其可视化。
无需本地安装,Google Colab提供基于云的Jupyter Notebook环境,默认包含Pandas。首先,导入必要的库:
import requests # 用于数据获取
import pandas as pd # 用于数据处理和可视化
在使用API和Pandas之前,需要导入必要的库:
我们将使用这两个库从Kraken API获取数据,并用Pandas DataFrame进行处理。
创建数据获取函数 - Kraken API & Pandas
def get_historic_price(symbol, after='2024-12-01'):
url = 'https://api.kraken.com/0/public/ohlc'
pair = f"{symbol.upper()}USD"
resp = requests.get(url, params={
"pair": pair,
'interval': 60, # 每小时数据
'since': str(int(pd.Timestamp(after).timestamp()))
})
resp.raise_for_status()
data = resp.json()
results_key = [k for k in data['result'].keys() if k != 'last'][0]
results = [
(close_time, float(open), float(high), float(low), float(close), float(volume))
for (close_time, open, high, low, close, vwap, volume, count)
in data['result'][results_key]
]
df = pd.DataFrame(results, columns=[
'closetime', 'openprice', 'highprice', 'lowprice', 'closeprice', 'volume'
])
df['closetime'] = pd.to_datetime(df['closetime'], unit='s')
df.set_index('closetime', inplace=True)
return df
此函数从Kraken API获取历史加密货币价格。它接收加密货币符号和日期作为参数,返回每小时价格数据。
函数工作原理:
设置参数并调用函数
last_week = pd.Timestamp.now() - pd.Timedelta(days=7)
btc = get_historic_price('btc', after=last_week)
last_week
变量表示一周前的日期。get_historic_price
函数获取过去一周的比特币价格数据。
数据检查与探索
在分析数据之前,需要检查数据集。Pandas 提供了方便的功能:
btc.head() # 查看前几行
btc.info() # 查看数据摘要
btc.head()
显示DataFrame的前几行,用于确认数据是否正确加载以及查看列名和数据结构。btc.info()
提供数据集的概述,包括列名、非零值计数和数据类型,有助于识别缺失值并确认数据类型。
数据可视化
最后,我们可以可视化比特币的收盘价随时间的变化:
btc['closeprice'].plot(figsize=(15, 7))
这行代码使用Pandas绘图功能,绘制比特币收盘价随时间的变化趋势图。figsize
参数指定图表大小。
结论
Pandas 是一个强大的数据处理工具,只需几行代码即可完成数据获取、清洗和可视化。本文演示了如何:
Pandas 提供了灵活性和易用性,方便处理大型数据集并快速获得洞见。 您可以尝试不同的加密货币、时间范围或可视化技术来进一步探索数据分析。