labs最近为开源大型语言模型(llm)推出了一种新的,快速且高效的api,称为pplx-api。这个创新工具旨在提供对各种开源llm的快速访问,包括mistral 7b,llama2 13b,code llama 34b和llama2 70b。 pplx-api 的引入标志着人工智能领域的一个重要里程碑,为开源 llm 提供了一站式服务。
pplx-api 的主要功能之一是它对开发人员的易用性。该 api 是用户友好的,允许开发人员使用熟悉的 rest api 轻松地将这些模型集成到他们的项目中。这种易用性消除了对 c /cuda 的深入了解或访问 gpu 的需要,使更广泛的开发人员可以访问它。
pplx-api
pplx-api 还拥有一个快速推理系统。推理系统的效率非常出色,延迟比复制低 2.9 倍,延迟比任意规模低 3.1 倍。在测试中,与文本生成推理 (tgi) 相比,pplx-api 的总体延迟提高了 2.03 倍,初始响应延迟提高了 2.62 倍。与 tgi 相比,该 api 还能够以高达 2 倍的速度处理令牌。这种速度和效率使pplx-api成为使用llm的开发人员的强大工具。
pplx-api 的优势
-
易用性:开发人员可以使用现成的最先进的开源模型,并在几分钟内开始使用熟悉的 rest api。
-
超快推理:精心设计的推理系统效率高,延迟比复制低 2.9 倍,延迟比 anyscale 低 3.1 倍。
-
经过实战考验的基础设施:pplx-api 被证明是可靠的,可在 应答引擎和 labs 操场中为生产级流量提供服务。
-
开源llm的一站式商店: labs致力于在新的开源模型到来时添加它们。例如,我们添加了 llama 和 mistral m
pplx-api 的基础设施是可靠且经过实战测试的。事实证明,它在 perplexity 的应答引擎和 labs 操场中为生产级流量提供服务方面都是可靠的。该基础设施结合了最先进的软件和硬件,包括由 nvidia a4 gpu 和 nvidia 的 tensorrt-llm 提供支持的 aws p100d 实例。这种强大的基础设施使pplx-api成为商用最快的llama和mistralapi之一。
开源llm的api
pplx-api 目前处于公开测试阶段,对订阅 perplexity pro 的用户免费。这种可用性允许更广泛的用户对 api 进行测试和提供反馈,帮助 perplexity labs 不断改进和完善该工具。该 api 对于 llm 部署和推理也具有成本效益。它已经为perplexity节省了大量成本,单个功能的成本每年减少约0.62m美元。这种成本效益使pplx-api成为休闲和商业用途的宝贵工具。
perplexity的团队致力于添加新的开源模型,确保pplx-api仍然是开源llm的综合资源。该api还用于为perplexity labs提供支持,perplexity labs是一个为各种开源模型提供服务的模型游乐场。perplexity labs引入pplx-api代表了ai领域的重大进步。它的易用性、快速推理系统、可靠的基础设施和成本效率使其成为使用开源 llm 的开发人员的强大工具。随着api的不断发展和改进,它有望成为ai社区更有价值的资源。
在不久的将来,pplx-api 将支持:
-
自定义困惑llm和其他开源llm。
-
自定义困惑嵌入和开源嵌入。
-
专用 api 定价结构,在公开测试版逐步淘汰后具有一般访问权限。
-
困惑 rag-llm api 具有事实和引用的基础。
如何访问 pplx-api
您可以使用https请求访问pplx-api rest api。在 pplx-api 中进行身份验证涉及以下步骤:
1. 通过困惑帐户设置页面生成 api 密钥。api 密钥是一种长期存在的访问令牌,在手动刷新或删除之前可以使用它。
2. 将 api 密钥作为持有者令牌发送到每个 pplx-api 请求的授权标头中。
3. 它目前支持 mistral 7b、llama 13b、code llama 34b、llama 70b,并且 api 方便地与 openai 客户端兼容,可轻松与现有应用程序集成。
未经允许不得转载:凯发k8国际真人 » perplexity lab pplx-api api for open-source llm