企业资讯-弈桔

技术前沿｜ChatGPT多模态功能All in One

发布时间：2023/11/08

返回列表

在11月6日的OpenAI开发者大会上，，，，一系列亮点让人惊喜连连。。。GPT-4 Turbo最新版本进行了六项重大升级——扩展了上下文理解长度、、、、加强了模型控制力、、、、知识内容得到更新、、增加了多模态功能、、、、支持模型微调定制，，以及提升了处理速度上限。。此外，，在会议上还推出了ChatGPT的自定义功能，，，用户可以无需任何编程知识，，便可根据特定需求打造个性化的ChatGPT版本，，，称之为GPTs（多个GPT），，这将作为即将推出的GPT商店（GPT Store）的一部分，，实现人人都能零代码打造专属的ChatGPT。。

现在的ChatGPT不仅可以聊天，，还能支持图片生成、、、语音交互、、文本分析、、、、论文解析、、、、浏览网页、、数据分析等功能。。让我们先来看看ChatGPT强大的多模态功能，，，，我们能够如何使用这些功能更好的学习和工作。。

01 图片生成功能

ChatGPT-4 作为一个语言模型，，，，主要用于理解和生成基于文本的响应。。。。它可以详细描述图像，，解释图像的描述，，，，并为图像生成提供详细的提示，，，但它不会直接在自己的框架内创建图像。。。

然而，，，OpenAI 还开发了其他专门的图像生成模型，，DALL-E，，，，旨在根据文本描述创建图像。。这意味着虽然 ChatGPT-4 可以为图像制作文本提示，，，，但 DALL-E 等另一个系统将用于根据该提示实际生成图像。。

ChatGPT-4 与 DALL-E 或类似图像生成模型的集成可以实现无缝体验，，用户可以在与 ChatGPT-4 的对话中描述图像，，然后系统可以使用该描述来使用单独的图像生成图像，，图像生成模型。。。

本文开始的两张图片都是由GPT4-DALL-E生成的，，，使用前还是需要将模式切换为DALL-E3模式。。例如下面是让它生成十年后北京城的样子：

提示创建图像的步骤和寻求文本信息的方式类似，，，，都是对话交流生成：

提示创建：用户向 ChatGPT-4 提供描述性文本提示，，，，详细说明所需的图像内容。。。

提示解释：ChatGPT-4 解释并可能细化提示，，以确保其足够清晰和详细，，，，足以生成图像。。。。

图像生成：细化的提示被传递到 DALL-E 等图像生成模型，，，然后根据提供的描述创建图像。。。

演示：生成的图像作为独立结果或在 ChatGPT-4 对话的上下文中呈现给用户。。。

02 网页浏览功能

Web 浏览功能的引入代表了 ChatGPT-4 之前功能的关键增强。。。在此更新之前，，，，ChatGPT-4 在封闭环境中运行，，仅依赖于 2023 年 4 月知识截止之前所训练的数据。。。。用户可以根据当时可用的信息提出问题并获得答案，，，但是无法从互联网访问或检索实时更新的信息。。

随着网络浏览功能的出现，，，，现在可以执行实时网络搜索。。。这使得它能够提取当前信息，，，为用户提供更准确和最新的响应。。例如，，，，它可以访问最新的新闻文章、、、、论坛主题或最近的统计数据得出更好的反馈。。

ChatGPT Plus 的用户将被授予访问网页浏览功能的权限。。这标志着 ChatGPT 功能的显着扩展，，，因为它现在包含了互联网连接。。它使 Plus 用户能够指示 AI 导航网页、、收集信息并与在线内容实时交互，，，，这显着扩大了 ChatGPT 可以执行的任务范围。。。这可能会改变用户与人工智能的交互方式，，，，使其成为更强大的研究、、学习和娱乐工具。。。。

03 高级的数据分析

ChatGPT-4的高级数据分析功能包括了对数据的理解、、、处理、、、、分析和可视化等多方面的能力。。这些功能可以帮助用户解决各种数据分析问题。。。。具体来说，，，，这些功能包括：

1. 数据理解与处理

￮对数据集的结构和内容进行解释。。

￮清洗数据，，包括处理缺失值、、、异常值、、、重复数据等。。。

￮执行数据转换，，例如日期格式转换、、、、数据类型转换、、、编码和解码等。。。。

2. 统计分析

￮描述性统计分析，，提供数据的概要，，如均值、、中位数、、、标准差等。。。

￮推论性统计分析，，，，如假设检验、、置信区间估计等。。。

￮相关性分析，，评估不同变量之间的关系强度和方向。。。。

3. 机器学习

￮使用各种机器学习算法进行预测和分类。。。

￮进行特征选择和模型优化。。。

￮解释模型的结果和性能。。。

4. 数据可视化

￮创建图表和可视化，，如折线图、、柱状图等。。。。

￮使用高级可视化工具如Seaborn或Plotly生成复杂的图形。。。。

￮通过可视化来帮助理解和展示数据分析的结果。。。。

5. 自然语言处理（NLP）

￮文本数据的预处理，，，，如分词、、、、词干提取等。。。

￮文本分类、、、、情感分析、、主题建模等。。。。

￮实体识别、、关系抽取等。。。。

6. 时间序列分析

￮分析时间序列数据，，，包括趋势、、周期性的识别。。。

￮预测未来值，，，，例如使用ARIMA、、、、季节性分解的预测等。。。

￮检测时间序列数据中的异常点。。。。

7. 交互式分析

￮与用户交互，，以理解特定的数据分析需求。。

￮根据用户的问题动态调整分析策略。。

￮提供步骤解释和结果解读，，帮助用户理解复杂的分析过程。。。

这些功能使得ChatGPT-4不仅仅是一个聊天机器人，，，，还是一个强大的数据分析工具。。用户可以通过自然语言与其交流，，，从而无需掌握专业的数据分析或编程技能就能进行复杂的数据分析。。。

下面是小编用该功能分析预训练模型提取的表征数据幅值分布图：

04 PDF论文辅助阅读

由于GPT-4没有上传PDF的功能，，，需要借助网页分析的插件分析PDF文件内容，，WebPilot是一款强大的ChatGPT插件，，，它允许用户提供一个或多个URL，，，，并可以选择性地添加交互请求、、、、提取特定信息或指定URL内容的处理方式。。这个插件为用户提供了一种定制化的网络浏览体验，，，，让他们能够根据自己的需求浏览和处理网页内容。。。。

05 画流程图

GPT-4没有内置的画图软件，，加入插件Diagrams:show me即可辅助画图。。。下面是画出近十年的全球人口数量趋势：

随着ChatGPT等大模型不断开源和推陈出新，，，越来越多的企业将会受到影响。。在竞争激烈的AI浪潮中，，既是挑战也是机遇。。。

比如ChatGPT集成的语音交互功能是whisper语音基础模型实现，，，，而whisper是通用的鲁棒性语音识别模型，，，如果直接用作唤醒智能家居、、、、车载等场景，，，会存在域不匹配问题。。。因此需要对原来whisper模型实现迁移，，，，将其优越的识别能力迁移到指定数据集和应用场景，，这一能力的实现需要大量的域内数据，，，可以说数据是AI研究和发展的基石。。

弈桔提供大量的垂域数据集，，包括多语种、、、多场景、、多应用的语音数据，，，，可以用于语音模型微调。。。同时还能够提供众多高质量的图像、、、多模态数据，，更好的帮助研发者进行模型的微调和自适应。。。。

上一篇：生态共建｜弈桔携手智谱AI，，赋能千行百业迈进生成式AI第二阶段下一篇：弈桔DOTS-LLM大模型服务平台正式发布，，数据底座赋能大模型技术产业落地