pandas导入外部数据
pandas导入外部数据
1 |
|
1. 导入.XLS或.xlsx文件
1 |
|
io:文件路径或类文件对象;
sheet_name: 通过字符串\整数\字符串列表\整数列表来索引单个或多个工作表。默认值为0;
header: 制定作为列名的行,默认值为0,即第一行为列名,根据实际表头来确定header;
names:默认值为None,要使用的列名列表;
idex_col:指定列为索引列,默认值为None,索引0是DataFrame的行标签;
usecols: 可以是int\list列表\字符串,默认值为None。导入指定列;
squeeze:布尔值,默认值为None,如果解析的数据只包含一列,则返回一个series;
dtype:列的数据类型名称或字典,默认值为None。(不懂)
skiprows:省略指定行数的数据,从第一行开始;
skipfooter:省略指定行数的数据,从最后一行开始。
1.1. 导入工作表(不指定工作表,则默认第一个)
1 |
|
1.2. 导入指定工作表
1 |
|
1.2.1 为表格指定行索引
1 |
|
1.2.2 设置列索引
1 |
|
1.2.3 列索引为默认数字
1 |
|
1.3. 导入指定列数据
1 |
|
2. 导入.csv文件
1 |
|
常用参数说明:
filepath_or_buffer: 字符串,文件路径或者URL链接;
sep\delimiter: 字符串、分隔符;
header:见第一节;
names:见第一节;
index_col:见第一节;
usecols:见第一节;
dtype:见第一节;
parse_dates: 通过该参数将某列直接转换为datetime64日期类型。
encoding:编码。
1 |
|
3. 导入.txt文件
同样使用pd.read_csv()函数来读取,不同的是,必须指定分隔符。
1 |
|
4. 导入HTML网页
1 |
|
常用参数说明:
io: 字符串,文件路径或者URL链接。不接受https网址,可以去掉s,如http://www.baidu.com;
match: 正则表达式,返回与正则表达式匹配的表格;
flavor: 解析器默认为lxml;
header: 确定列标题所在行;
index_col: 指定行索引;
encoding: 编码方式。
ps:使用pd.read_html(),首先要检查网页表格是否为table类型,或者含有<table>····</table>
的字样
1 |
|
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!