Open LLM Leaderboard-Ai平台模型-芯思考AI营销获客系统

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI语言模型评估框架）封装。

由于社区在发布了大量的大型语言模型（LLM）和聊天机器人之后，往往伴随着对其性能的夸大宣传，很难过滤出开源社区取得的真正进展以及目前的最先进模型。因此，Hugging Face 使用 Eleuther AI语言模型评估框架对模型进行四个关键基准测试评估。这是一个统一的框架，用于在大量不同的评估任务上测试生成式语言模型。

Open LLM Leaderboard 的评估基准

AI2 推理挑战（25-shot）：一组小学科学问题
HellaSwag（10-shot）：一个测试常识推理的任务，对人类来说很容易（大约95%），但对SOTA模型来说具有挑战性。
MMLU（5-shot）- 用于测量文本模型的多任务准确性。测试涵盖57个任务，包括基本数学、美国历史、计算机科学、法律等等。
TruthfulQA（0-shot）- 用于测量模型复制在在线常见虚假信息中的倾向性。

相关网站

GPT-4

GPT-4（Generative Pre-trained Transformer）是 OpenAI 开发的自然语言处理模型 GPT 家族中的第四个版本，该模型依靠强大的神经网络来理解和生成类似人类的语言。

Auto-GPT

Auto-GPT是一个实验性开源应用程序，展示了GPT-4语言模型的真正潜力，GitHub上超10万人星标。该程序由 GPT-4 驱动，将LLM大语言模型思想链接在一起，以自主实现你设定的任何目标。作为GPT-4完全自主运行的首批例子之一，Auto-GPT突破了人工智能的极限，距离AGI通用人工智能又近了一步。

AgentGPT

在浏览器中组装、配置和部署自主人工智能的开源项目

悟道

2021年6月，北京智源研究院（BAAI）推出了悟道1.0的后续版本悟道2.0，作为中国第一个超大规模智能模型系统。悟道是一个语言模型，旨在在人类层面的思维上超越 OpenAI 的 GPT-3 和谷歌的 LaMDA。

腾讯混元大模型

腾讯混元大模型是由腾讯自主研发的大语言模型，拥有超千亿参数规模，预训练语料超2万亿tokens，具有强大的中文理解与创作能力、逻辑推理能力，以及可靠的任务执行能力。

Gradio

Gradio是一个开源的Python库，用于构建演示机器学习或数据科学，以及web应用程序。用户可以使用Gradio基于自己的机器学习模型或数据科学工作流快速创建一个漂亮的用户界面，让用户可以尝试拖放他们自己的图像、粘贴文本、录制他们自己的声音，并通过浏览器与您的演示程序进行交互。

DeepFloyd IF

DeepFloyd IF是由StabilityAI旗下的DeepFloyd研究团队推出的开源的文本到图像生成模型，IF是一个基于级联方法的模块化神经网络。

Cohere

Cohere是一个提供大语言模型的平台，帮助开发人员和企业构建高性能的AI产品。该平台主要提供AI驱动的搜索文本（多语言嵌入、神经搜索、搜索排名）、分类文本和生成文本等服务，可帮助企业快速部署对话式AI聊天机器人、生成式搜索引擎、文本摘要总结、增强向量检索等。

DALL·E 2

OpenAI旗下DALL·E 2图像生成模型

Codex

OpenAI旗下AI代码生成训练模型

文心大模型

百度推出的产业级知识增强大模型

序列猴子

序列猴子是出门问问推出的一款超大规模的语言模型，具有长序列、多模态、单模型、大数据等特点。利用其通用的表示能力与推理能力，用户能够进行多轮交互，从而在使用中获得更加便捷流畅的体验。

MOSS

MOSS是复旦大学团队开发的国内第一个发布的对话式大型语言模型，今年2月邀公众参与内测。它可以执行对话生成、编程、事实问答等一系列任务，打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。4月21日，新版MOSS模型正式上线并宣布开源。

魔搭社区

阿里达摩院推出的AI模型社区，超过300+开源AI模型

讯飞星火认知大模型

「讯飞星火认知大模型」是科大讯飞于2023年5月6日在讯飞星火认知大模型成果发布会上发布的类ChatGPT产品。讯飞星火认知大模型是以中文为核心的新一代认知智能大模型，拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化，实现从提出、规划到解决问题的全流程闭环。

BLOOM

HuggingFace推出的大型语言模型（LLM）

商量SenseChat

商量SenseChat是由商汤科技研发的一款基于自然语言处理技术的人工智能大语言模型，具备超凡的语言理解、生成能力，将科技与人文相互交融。

阿里巴巴M6

M6是阿里巴巴达摩院推出的，中文社区最大的跨模态预训练模型，模型参数达到十万亿以上，具有强大的多模态表征能力。M6通过将不同模态的信息经过统一加工处理，沉淀成知识表征，为各个行业场景提供语言理解、图像处理、知识表征等智能服务

AI网址导航

Open LLM Leaderboard

Open LLM Leaderboard 的评估基准

相关网站