一、Pandas需要先读取表格类型的数据,然后进行分析
数据类型 | 说明 | 读取方法 |
---|---|---|
CSV. tsV. txt | 用逗号分隔、tab分割的纯文本文件 | pd.read_csv |
excel | xls、xlsx文件 | pd.read_excel |
mysql | 关系型数据库表 | pd.read_sql |
二、Pandas 读取数据
数据资料:https://grouplens.org/datasets/movielens/
-
读取CSV, 使用默认的标题行、逗号分隔符号
import pandas as pd fpath = '/Users/python/Desktop/means/ml-25m/ratings.csv' ratings = pd.read_csv(fpath)
-
读取txt, 自己指定分隔符,标题行
ratings = pd.read_csv( fpath, sep='\t', # 指定分隔符、列名 header=None, # 告诉pd文件没有标题行 names=['userId','movieId','rating','timestamp'] # 自己设置标题行 )
-
读取excel文件,使用默认的标题行、逗号分隔符
数据有自己的标题行 ratings = pd.read_excel(fpath)
-
读取MySQL数据库
import pymysql conn = pymysql.connect( host='', user='', password='', database='demo', charset='utf8' ) ratings = pd.read_sql(sql='select * from sys_user', con=conn)
三、Pandas 其它操作
-
查看前几行数据
ratings.head() userId movieId rating timestamp 0 1 296 5.0 1147880044 1 1 306 3.5 1147868817 2 1 307 5.0 1147868828 3 1 665 5.0 1147878820 4 1 899 3.5 1147868510
-
查看数据的形状,返回(行数、列数)
ratings.shape (25000095, 4) 数据集:包含 25000095行 4列
-
查看列明列表
ratings.columns 输出位列的名字 Index(['userId', 'movieId', 'rating', 'timestamp'], dtype='object')
-
查看索引列文章来源:https://www.toymoban.com/news/detail-523852.html
ratings.index 输出开始行数,结束行数 RangeIndex(start=0, stop=25000095, step=1)
-
查看每一列数据类型文章来源地址https://www.toymoban.com/news/detail-523852.html
ratings.dtypes 输出: 每一列的数据类型 userId int64 movieId int64 rating float64 timestamp int64 dtype: object
到了这里,关于pandas(九) 数据读取-读取csv、excle、txt、mysql数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!