ChatGPT 提示获取机器学习数据集

随着机器学习的发展，获取高质量数据集变得越来越重要。数据集对于评估最终模型的准确性和有效性至关重要，这是任何机器学习项目的先决条件。在本文中，我们将学习如何使用 ChatGPT[OpenAI] 模板提示为不同的机器学习应用程序收集各种数据集，并在 Python 中收集这些数据集。

使用 ChatGPT 生成数据集的步骤

步骤 1：在 Python 中安装 OpenAI 库

!pip 安装-q openai

第 2 步：在 Python 中导入 OpenAI 库

gpt4 购买
midjourney 账号
 midjourney api

import openai

步骤 3：将您的 API 密钥分配给 OpenAI 环境变量

openai.api_key = "YOUR_API_KEY"

步骤 4：创建自定义函数来调用 ChatGPT API

def chat(message): 
    response = openai.ChatCompletion.create( 
        model="gpt-3.5-turbo", 
        messages=[ 
            {"role": "user", "content": f"{message}"}, 
        ] 
    ) 
    return response['choices'][0]['message']['content']

步骤 5：调用该函数并传入提示

res = 聊天（'按摩'）打印（res）

提示收集/生成机器学习数据集

提示 1：

创建可用于训练{主题}模型的数据集列表。确保数据集以 CSV 格式提供。目标是使用此数据集了解{主题}。此外，如果可能，请提供数据集的链接。以表格形式创建列表，其中包含以下列：数据集名称、数据集、URL、数据集描述

prompt =''' 
Create a list of datasets that can be used to train logistic regression models.  
Ensure that the datasets are available in CSV format.  
The objective is to use this dataset to learn about logistic regression models  
and related nuances such as training the models. Also provide links to the dataset if possible. 
Create the list in tabular form with following columns: 
Dataset name, dataset, URL, dataset description 
'''
res = chat(prompt) 
print(res)

输出：

数据集名称 | 数据集 | URL | 数据集描述--- | --- | --- | ---泰坦尼克号 - 从灾难中学习机器学习 | titanic.csv | https://www.kaggle.com/c/titanic/data | 包含泰坦尼克号乘客的数据，包括年龄、性别和舱位等特征，以及他们是否幸存。红酒品质 | winequality-red.csv | https://archive.ics.uci.edu/ml/datasets/wine+quality | 包含红酒各种理化性质及其相关质量评级的数据。银行营销 | bank-additional-full.csv | https://archive.ics.uci.edu/ml/datasets/bank+marketing | 包含银行电话营销活动的信息，包括客户的联系方式以及他们是否订阅了定期存款。威斯康星州乳腺癌（诊断） | wdbc.csv | https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(诊断) | 包含从乳腺癌活检数字化图像中提取的各种特征的数据，以及活检是良性还是恶性。成人 | adult.csv | https://archive.ics.uci.edu/ml/datasets/Adult | 包含个人的人口统计数据，以及他们的收入是否超过某个阈值。心脏病 | heart.csv | https://www.kaggle.com/ronitf/heart-disease-uci | 包含对个人进行的各种医学测量的数据，以及他们是否患有心脏病。皮马印第安人糖尿病 | pima-indians-diabetes.csv | https://www.kaggle.com/uciml/pima-indians-diabetes-database |包含对皮马印第安妇女进行的各种医疗测量的数据，以及她们是否患有糖尿病。鸢尾花 | iris.csv | https://archive.ics.uci.edu/ml/datasets/Iris | 包含对鸢尾花进行的各种测量的数据，以及它们的种类。贷款预测 | train.csv | https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/#ProblemStatement | 包含贷款申请人的各种人口统计数据，以及他们的申请是否获得批准。

提示2：

生成虚拟数据集来训练和测试{机器学习模型名称}以用于教育目的。

res = chat('generate a dummy dataset to train and test a logistic regression model\
for educational purposes. Ensure that the dataset is available in csv format')
print(res)

输出：

以下是用于教育目的的 CSV 格式的虚拟数据集示例：```年龄、性别、收入、教育、就业状况、婚姻状况、贷款审批23,男,25000,高中,待业,单身,未婚32,女,45000,本科,在职,已婚,未批准45,男,120000,硕士,在职,已婚,已批准38,女,60000,本科,在职,已婚,已批准26,男,32000,大专,在职,未婚,未批准29,女,28000,高中,在职,单身,未批准41,男,80000,博士,在职,离异,已获批准54,男,95000,硕士,在职,已婚,已核准```该数据集包含 8 个人的人口统计和财务信息，以及他们是否获得贷款批准。目标是训练一个逻辑回归模型，根据其他变量预测贷款批准情况。

提示 3：

列出要练习{主题}的数据集，如果可能的话，还可以附上数据集链接和描述。以表格形式创建列表

prompt =''' 
List down datasets to practice object detection,  
if possible also attach dataset links and description.  
Create the list in tabular format 
'''
res = chat(prompt) 
print(res)

输出：

| 数据集 | 链接 | 描述 || :-------------- | :---------------------------------------------------------------- -------- | :---------------------------------------------------------------- ------------------- || COCO | http://cocodataset.org/#home | 上下文中的常见对象数据集，包含超过 330K 张图像 || Pascal VOC | http://host.robots.ox.ac.uk/pascal/VOC/ | Pascal Visual Object Classes 数据集，包含 20 个对象类别 || 打开图像 | https://storage.googleapis.com/openimages/web/index.html | 包含超过 900 万张带有对象级注释的图像 || ImageNet | http://www.image-net.org/ | 拥有超过 1400 万张带注释图像和 21000 个类别的大规模数据集 || KITTI | http://www.cvlibs.net/datasets/kitti/ | 包含带有对象级注释的街景图像 || BDD100K | https://bdd-data.berkeley.edu/ | 用于自动驾驶的大规模多样化数据集 || DOTA | https://captain-whu.github.io/DOTA/index.html | 带有物体检测注释的大规模航空图像数据集 || WIDER FACE | http://shuoyang1213.me/WIDERFACE/ | 包含 32k 张带有边界框注释的人脸图像 || VisDrone | http://www.aiskyeye.com/ | 包含 10k 张带有各种物体注释的图像 || MS COCO 文本 | http://www.robots.ox.ac.uk/~vgg/data/scenetext/ | 包含 63k 张带有文字注释的图像 |654这些数据集可与流行的对象检测框架（如 TensorFlow、PyTorch 和 Keras）一起使用。

提示 4：

创建用于练习{主题}的数据集列表。确保它们以 CSV 格式提供。此外，提供数据集的链接。

prompt =""" 
Create a list of datasets for practicing on machine translation from english to hindi.  
Make sure they are available in text format.  
Also, provide links to the dataset. 
"""
res = chat(prompt) 
print(res)

输出：

1. TED 演讲语料库：该数据集包含英语和印地语的 TED 演讲的平行记录。它以文本格式提供，可从官方网站下载：https://www.ted.com/participate/translate2. 联合国平行语料库：该语料库包含联合国代表发表的演讲的印地语和英语平行文本。它以文本格式提供，可从官方网站下载：https://conferences.unite.un.org/UN/corpus3. OPUS 语料库：该语料库包含印地语和英语等多种语言的平行文本。它包括新闻、法律文件和字幕等广泛领域的数据。它以文本格式提供，可从官方网站下载：http://opus.nlpl.eu/4. 圣经语料库：该数据集包含印地语和英语的圣经平行文本。它以文本格式提供，可从官方网站下载：http://christos-c.com/bible_data/5. 印度语言平行语料库：该语料库包含印地语和其他印度语言的平行文本。它包括来自新闻、小说和维基百科文章等各个领域的数据。它以文本格式提供，可从官方存储库下载：https://github.com/AI4Bharat/indic-corpus6. Covid-19 印度平行语料库：该语料库包含与印度 Covid-19 疫情相关的印地语和英语平行文本。它包括来自新闻来源、政府公告和社交媒体的数据。它以文本格式提供，可从官方网站下载：https://github.com/AI4Bharat/covid19-news/blob/master/parallel-corpus.md7. BookCorpus：该数据集包含印地语和英语小说的平行文本。它以文本格式提供，可从官方网站下载：https://github.com/soskek/bookcorpus/tree/master/data注意：其中一些数据集在用于机器翻译目的之前可能需要进行一些预处理和清理。