【小沐学AI】数据分析的Python库:Pandas AI

这篇具有很好参考价值的文章主要介绍了【小沐学AI】数据分析的Python库:Pandas AI。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、简介

https://pandas-ai.com/
https://github.com/Sinaptik-AI/pandas-ai

PandasAI 是一个 Python 库,可以轻松地用自然语言向数据提问。它可以帮助您使用生成式 AI 探索、清理和分析数据。

pandasai,Python,AI,ai,pandas,pandasai,python,openai,google,llm
PandasAI与您的数据库(SQL、CSV、pandas、polars、mongodb、noSQL 等)聊天。PandasAI 使用 LLM(GPT 3.5 / 4、Anthropic、VertexAI)和 RAG 进行数据分析对话。

PandasAI 是一个 Python 库,可以轻松地用自然语言对数据(CSV、XLSX、PostgreSQL、MySQL、BigQuery、Databrick、Snowflake 等)提出问题。xIt 可帮助您使用生成式 AI 探索、清理和分析数据。

除了查询之外,PandasAI 还提供通过图形可视化数据、通过处理缺失值来清理数据集以及通过特征生成提高数据质量的功能,使其成为数据科学家和分析师的综合工具。

PandasAI 使用生成式 AI 模型来理解和解释自然语言查询,并将其转换为 python 代码和 SQL 查询。然后,它使用代码与数据交互并将结果返回给用户。

  • PandasAI 的特点
    • 自然语言查询:使用自然语言向数据提问。
    • 数据可视化:生成图形和图表以可视化数据。
    • 数据清理:通过处理缺失值来清理数据集。
    • 特征生成:通过特征生成提高数据质量。
    • 数据连接器:连接到各种数据源,如 CSV、XLSX、PostgreSQL、MySQL、BigQuery、Databrick、Snowflake 等。

2、安装

2.1 Python

https://www.python.org/downloads/windows/
首先尝试安装Python3.12
pandasai,Python,AI,ai,pandas,pandasai,python,openai,google,llm

2.2 PandasAI

使用如下命令安装:

pip install pandasai

pandasai,Python,AI,ai,pandas,pandasai,python,openai,google,llm
安装刚开始还比较顺利。
pandasai,Python,AI,ai,pandas,pandasai,python,openai,google,llm
结果后面如上报错,需要VC++编译器,于是安装VS2019如下:

vs2019社区版下载地址:
https://learn.microsoft.com/zh-cn/visualstudio/releases/2019/release-notes
vs2019专业版下载地址:
https://visualstudio.microsoft.com/zh-hans/vs/older-downloads/

pandasai,Python,AI,ai,pandas,pandasai,python,openai,google,llm
安装完vs2019之后,再安装PandasAI 仍然报错。
于是卸载Python3.12,安装Python3.11试试。
pandasai,Python,AI,ai,pandas,pandasai,python,openai,google,llm
安装完Python3.11之后。
pandasai,Python,AI,ai,pandas,pandasai,python,openai,google,llm

再安装PandasAI 如下:
pandasai,Python,AI,ai,pandas,pandasai,python,openai,google,llm
正在安装中,
pandasai,Python,AI,ai,pandas,pandasai,python,openai,google,llm
提示安装安装成功。
运行测试脚本后,提示还需要pyyaml库。
pandasai,Python,AI,ai,pandas,pandasai,python,openai,google,llm
这里再安装一下pyyaml库。

pip install pyyaml

pandasai,Python,AI,ai,pandas,pandasai,python,openai,google,llm

3、部署

PandasAI 可以通过多种方式进行部署。

  • 您可以在 Jupyter 笔记本或streamlit 应用中轻松使用它,也可以将其部署为 REST API,例如使用 FastAPI 或 Flask。

  • 托管 PandasAI Cloud 或自托管企业产品,见网站https://pandas-ai.com/。

4、功能

4.1 大型语言模型 (LLM)

https://docs.pandas-ai.com/en/latest/LLMs/llms/
PandasAI 支持多种大型语言模型 (LLM)。LLM 用于从自然语言查询生成代码。然后执行生成的代码以生成结果。

您可以通过实例化一个 LLM 并将其传递给 or 构造函数来选择一个 LLM,也可以在文件中指定一个 LLM。SmartDataFrame / SmartDatalake / pandasai.json

4.1.1 BambooLLM

BambooLLM 是由 PandasAI 开发的最先进的语言模型,考虑了数据分析。

  • 示例代码如下:
from pandasai import SmartDataframe
from pandasai.llm import BambooLLM

llm = BambooLLM(api_key="my-bamboo-api-key")
df = SmartDataframe("data.csv", config={"llm": llm})

response = df.chat("Calculate the sum of the gdp of north american countries")
print(response)

4.1.2 OpenAI 模型

为了使用 OpenAI 模型,您需要拥有 OpenAI API 密钥。
https://platform.openai.com/account/api-keys

pandasai,Python,AI,ai,pandas,pandasai,python,openai,google,llm

  • 示例代码如下:
from pandasai import SmartDataframe
from pandasai.llm import OpenAI

llm = OpenAI(api_token="my-openai-api-key")
pandas_ai = SmartDataframe("data.csv", config={"llm": llm})

4.1.3 谷歌 PaLM

为了使用 Google PaLM 模型,您需要拥有 Google Cloud API 密钥。

  • 示例代码如下:
from pandasai import SmartDataframe
from pandasai.llm import GooglePalm

llm = GooglePalm(api_key="my-google-cloud-api-key")
df = SmartDataframe("data.csv", config={"llm": llm})

4.1.4 谷歌 Vertexai

为了通过 Vertexai api 使用 Google PaLM 模型,您需要具备:
Google Cloud 项目
项目设置区域
安装可选依赖项google-cloud-aiplatform
认证gcloud

  • 示例代码如下:
from pandasai import SmartDataframe
from pandasai.llm import GoogleVertexAI

llm = GoogleVertexAI(project_id="generative-ai-training",
                     location="us-central1",
                     model="text-bison@001")
df = SmartDataframe("data.csv", config={"llm": llm})

4.1.5 Azure OpenAI

若要使用 Azure OpenAI 模型,需要具有 Azure OpenAI API 密钥以及 Azure OpenAI 终结点。
https://azure.microsoft.com/zh-cn/products/ai-services/openai-service/

  • 示例代码如下:
from pandasai import SmartDataframe
from pandasai.llm import AzureOpenAI

llm = AzureOpenAI(
    api_token="my-azure-openai-api-key",
    azure_endpoint="my-azure-openai-api-endpoint",
    api_version="2023-05-15",
    deployment_name="my-deployment-name"
)
df = SmartDataframe("data.csv", config={"llm": llm})

4.1.6 HuggingFace 模型

为了通过文本生成使用 HuggingFace 模型,您需要首先提供受支持的大型语言模型 (LLM)。例如,这可用于使用 LLaMa2、CodeLLaMa 等模型。
https://huggingface.co/docs/text-generation-inference/index

  • 示例代码如下:
from pandasai.llm import HuggingFaceTextGen
from pandasai import SmartDataframe

llm = HuggingFaceTextGen(
    inference_server_url="http://127.0.0.1:8080"
)
df = SmartDataframe("data.csv", config={"llm": llm})

4.1.7 LangChain 模型

PandasAI 还内置了对 LangChain 模型的支持。
为了使用LangChain模型,您需要安装软件包:langchain
pip install pandasai[langchain]

  • 示例代码如下:
from pandasai import SmartDataframe
from langchain_openai import OpenAI

langchain_llm = OpenAI(openai_api_key="my-openai-api-key")
df = SmartDataframe("data.csv", config={"llm": langchain_llm})

4.1.8 Amazon Bedrock 模型

要使用 Amazon Bedrock 模型,您需要拥有 AWS AKSK 并获得模型访问权限。
https://docs.aws.amazon.com/IAM/latest/UserGuide/id_credentials_access-keys.html
您需要安装软件包: pip install pandasai[bedrock]

  • 示例代码如下:
from pandasai import SmartDataframe
from bedrock_claude import BedrockClaude
import boto3

bedrock_runtime_client = boto3.client(
    'bedrock-runtime',
    aws_access_key_id=ACCESS_KEY,
    aws_secret_access_key=SECRET_KEY
)

llm = BedrockClaude(bedrock_runtime_client)
df = SmartDataframe("data.csv", config={"llm": llm})

4.1.9 本地模型

PandasAI 支持本地模型,但较小的模型通常性能不佳。要使用本地模型,请先在遵循 OpenAI API 的本地推理服务器上托管一个模型。这已经过测试,可与 Ollama 和 LM Studio 配合使用。

from pandasai import SmartDataframe
from pandasai.llm.local_llm import LocalLLM

ollama_llm = LocalLLM(api_base="http://localhost:11434/v1", model="codellama")
df = SmartDataframe("data.csv", config={"llm": ollama_llm})
from pandasai import SmartDataframe
from pandasai.llm.local_llm import LocalLLM

lm_studio_llm = LocalLLM(api_base="http://localhost:1234/v1")
df = SmartDataframe("data.csv", config={"llm": lm_studio_llm})

5、代码测试

5.1 入门示例

import pandas as pd
from pandasai import SmartDataframe

# Sample DataFrame
sales_by_country = pd.DataFrame({
    "country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", "Canada", "Australia", "Japan", "China"],
    "sales": [5000, 3200, 2900, 4100, 2300, 2100, 2500, 2600, 4500, 7000]
})

# Instantiate a LLM
from pandasai.llm import OpenAI
llm = OpenAI(api_token="YOUR_API_TOKEN")

df = SmartDataframe(sales_by_country, config={"llm": llm})
df.chat('Which are the top 5 countries by sales?')

运行后提示open key错误或不存在,如下:
pandasai,Python,AI,ai,pandas,pandasai,python,openai,google,llm
当然正确的结果应该输出:

China, United States, Japan, Germany, Australia

修改代码,使用google的AI如下:

import pandas as pd
from pandasai import SmartDataframe

# Sample DataFrame
sales_by_country = pd.DataFrame({
    "country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", "Canada", "Australia", "Japan", "China"],
    "sales": [5000, 3200, 2900, 4100, 2300, 2100, 2500, 2600, 4500, 7000]
})

# Instantiate a LLM
# from pandasai.llm import OpenAI
# llm = OpenAI(api_token="YOUR_API_TOKEN")

from pandasai.llm import GooglePalm
llm = GooglePalm(api_key="my-google-cloud-api-key")

# df = SmartDataframe("data.csv", config={"llm": llm})
df = SmartDataframe(sales_by_country, config={"llm": llm})

res = df.chat('Which are the top 5 countries by sales?')
print(res)

运行又报错,如下:
pandasai,Python,AI,ai,pandas,pandasai,python,openai,google,llm
安装了google.generativeai库之后:
pandasai,Python,AI,ai,pandas,pandasai,python,openai,google,llm
仍然报错如上。
尝试画图语句如下:

df.chat(
    "Plot the histogram of countries showing for each the sales",
)

pandasai,Python,AI,ai,pandas,pandasai,python,openai,google,llm
仍然报错如上。

结语

如果您觉得该方法或代码有一点点用处,可以给作者点个赞,或打赏杯咖啡;╮( ̄▽ ̄)╭
如果您感觉方法或代码不咋地//(ㄒoㄒ)//,就在评论处留言,作者继续改进;o_O???
如果您需要相关功能的代码定制化开发,可以留言私信作者;(✿◡‿◡)
感谢各位童鞋们的支持!( ´ ▽´ )ノ ( ´ ▽´)っ!!!
pandasai,Python,AI,ai,pandas,pandasai,python,openai,google,llm文章来源地址https://www.toymoban.com/news/detail-851120.html

到了这里,关于【小沐学AI】数据分析的Python库:Pandas AI的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python-数据分析-pandas

    第一种:通过标量创建Series 第二种:通过列表创建Series 第三种:通过字典创建Series 第四种:通过ndarray创建Series values和index 索引和切片 第一种:通过一维列表构成的字典创建DataFrame 姓名 数学 语文 计算机 0 张三 87 54 34 1 李四 45 76 56 2 王五 34 55 77 3 赵六 98 90 87 姓名 数学 语文

    2023年04月23日
    浏览(42)
  • Python数据分析-Pandas

    个人笔迹,建议不看 Series类型 DataFrame类型 是一个二维结构,类似于一张excel表 DateFrame只要求每列的数据类型相同就可以了 查看数据 读取数据及数据操作 行操作 条件选择 缺失值及异常值处理 判断缺失值: 填充缺失值: 删除缺失值 age count 2.000000 mean 1.500000 std 0.707107 min 1

    2024年02月10日
    浏览(39)
  • 【Python练习】数据分析库Pandas

    1. 了解Serie

    2024年02月09日
    浏览(39)
  • 实战演练Python数据分析[pandas]

    本篇文章出自于《利用Python进行数据分析》示例数据 请结合提供的示例数据,分析代码的功能,并进行数据分析与可视化拓展。本篇文章通过四个例子,通过MoviesLens数据集、美国1880-2010年的婴儿名字、美国农业部视频数据库、2012年联邦选举委员会数据库来进行着重讲解。

    2024年02月15日
    浏览(33)
  • 【头歌】——数据分析与实践-python-Pandas 初体验-Pandas数据取值与选择-Pandas进阶

    第1关 了解数据处理对象–Series 第2关 了解数据处理对象-DataFrame 第3关 读取 CSV 格式数据 第4关 数据的基本操作——排序 第5关 数据的基本操作——删除 第6关 数据的基本操作——算术运算 第7关 数据的基本操作——去重 第8关 数据重塑 第1关 Series数据选择 第2关 DataFrame数据

    2024年01月22日
    浏览(56)
  • python数据分析之Pandas库(一)

    Pandas有两种常用的数据结构: Series (一维数据)与 DataFrame(二维数据)。 Series 是一种类似于 一维数组 的对象,能保存不同数据类型。 DataFrame 是一个 二维的表格型 的数据结构。 1、初始化 使用一位列表初始化Series 2、索引[数据的行标签]、切片 1、初始化 2、查看数据 1、

    2024年02月09日
    浏览(30)
  • 【小沐学写作】免费在线AI辅助写作汇总

    自从chatgpt火了以后,AI工具爆发式增长,各种各样的AI工具层出不穷。有Ai写作、AI绘画、AI编程、AI视频、AI音频等等,今天为大家推荐的这几款AI辅助写作工具。 https://effidit.qq.com/demo 智能创作助手 Effidit(Efficient and Intelligent Editing) 是由腾讯 AI Lab 开发的一个研究性原型系统

    2024年02月04日
    浏览(36)
  • 【Python】数据分析+数据挖掘——探索Pandas中的数据筛选

    当涉及数据处理和分析时,Pandas是Python编程语言中最强大、灵活且广泛使用的工具之一。Pandas提供了丰富的功能和方法,使得数据的选择、筛选和处理变得简单而高效。在本博客中,我们将重点介绍Pandas中数据筛选的关键知识点,包括条件索引、逻辑操作符、 query() 方法以及

    2024年02月15日
    浏览(36)
  • Python数据分析之Pandas核心使用进阶

    在Pandas中,有两种常见的方法可以进行DataFrame的行级遍历:使用 iterrows() 和使用 iteritems() 。 使用 iterrows() 方法: iterrows() 方法返回一个迭代器,可以按行遍历DataFrame。每次迭代返回一个包含行索引和该行数据的元组。 输出结果为: 在上面的例子中,我们使用 iterrows() 方法遍

    2024年02月11日
    浏览(59)
  • 【小沐学NLP】在线AI绘画网站(百度:文心一格)

    当下,越来越多AI领域前沿技术争相落地,逐步释放出极大的产业价值,其中最受关注的方向之一便是 大规模预训练模型(简称“大模型”),大模型不仅效果好、泛化能力强、通用性强,而且具有强大的生成能力。在此基础上,AIGC(Artificial Intelligence Generated Content,人工智

    2024年02月14日
    浏览(26)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包