nlpcloud.io帮助devs添加语言处理智能到他们的应用程序

2021-04-09 20:42:51

这是引导法语启动,nlpcloud.io在MLP / AIOPS - 或'计算平台作为服务中的贸易(作为其自己的服务器上运行查询) - 重点是自然语言处理(NLP ),顾名思义。

近年来人工智能的发展导致了NLP领域的令人印象深刻的进步 - 这项技术可以帮助企业通过自动化实体识别,情绪分析,文本等自动化任务来思考各种通信的技术。分类,摘要,问题回答和讲话标记部分,释放(人类)员工专注于更复杂/细致的工作。 (虽然值得强调的是,大部分NLP研究都集中在英语语言上 - 这意味着这是该技术最成熟的地方;所以相关的AI进步不是普遍分布的。)

生产准备就绪(预训练的)英语的NLP模型很容易获得“开箱即用”。还有专门的开源框架提供培训模型的帮助。但希望挖掘NLP的企业仍然需要具有DevOps资源和Chops来实现NLP模型。

nlpcloud.io正在迎合对业务的迎合,这些企业不会让实施挑战自己 - 提供“生产准备的NLP API”,其中有“不需要DevOps”的承诺。

它的API是基于拥抱的脸部和斑点开源模型。客户可以选择使用即用的预培训型号(选择“最好的”开源模型;它没有自己建造);或者他们可以通过自己的数据科学家上传内部开发的自定义模型 - 它说是谷歌自然语言(使用谷歌的ML Models)或亚马逊理解和猴子学习的差异化VS SaaS服务点。

nlpcloud.io表示,它希望通过帮助开发人员和数据科学家在没有时间和公平的价格上“以公平的价格”来民主化NLP。 (它具有基于每分钟的请求的分层定价模型,该模型从39分开始,在企业结束时,最高可达1,199分,对于在GPU上运行的一个自定义模型。它还提供免费层,因此用户可以测试低索取速度的模型而不产生充电。)

“这个想法来自这一事实,即作为一个软件工程师,我看到许多AI项目由于部署到生产阶段而失败,”唯一的创始人和CTO Julien Salina说。 “公司往往专注于建立准确和快速的AI型号,但今天提供了越来越优秀的开源模型,正在进行一份优秀的工作......因此,现在最艰难的挑战是能够有效地在生产中使用这些模型。它需要ai技能,devops技能,编程技巧......这就是为什么这对这么多公司来说是一个挑战,这就是为什么我决定推出nlpcloud.io。“

该平台于2021年1月推出,现在拥有大约500个用户,其中包括30岁是为服务支付的。虽然创业公司在法国阿尔卑斯山的格勒诺布尔,但是现在是一个三个团队,加上几个独立的承包商。 (萨利纳斯说,他计划在年底雇用五个人。)

“我们的大多数用户都是技术初创公司,但我们也开始拥有几家更大的公司,”他告诉TechCrunch。 “我看到的最大需求就是来自软件工程师和数据科学家。有时它来自有数据科学技能但没有凭借Devops技能的团队(或不想花时间)。有时它来自技术团队,他们希望在没有雇用整个数据科学团队的情况下借用NLP的箱子。“

“我们拥有非常多样化的客户,从独奏创业公司到BBVA,Mintel,Senuto等更大的公司......在各种各样的部门(银行,公共关系,市场研究)中,”他补充道。

客户使用案例包括来自非结构化文本(如网页)的优势,通过命名实体提取;通过进行情感分析,基于紧迫性排序支持门票。

内容营销人员也使用其标题生成平台(通过摘要)。虽然文本分类能力正在用于每个Salinas的经济智能和财务数据提取。

他说,他自己的经验和在一些科技公司的NLP项目上工作的CTO和软件工程师带领他发现了AI实施挑战的机会。

“我意识到它非常容易建立可接受的NLP模型,因为伟大的开源框架,如隐藏和拥抱面部变形金刚,但我发现很难在生产中使用这些模型,”他解释道。 “它需要编程技巧,以便开发一个API,强大的Devops技能,以便建立一个强大而快速的基础设施来服务NLP模型(常规消耗大量资源的AI模型),以及当然的数据科学技能。

“我试图寻找即用云解决方案,以节省几周的工作,但我找不到任何令人满意的事情。我的直觉是,这样的平台将帮助科技团队节省大量时间,有时是没有强大的Devops概况的团队的工作几个月。“

“NLP已经存在了几十年,但直到最近,它占据了全团队的数据科学家,建立了可接受的NLP模型。几年来,我们在NLP模型的准确性和速度方面取得了惊人的进步。几十年来就在NLP领域工作的越来越多的专家认为,NLP正在成为“商品”,“他继续。 “像Spacy这样的框架使得开发人员非常简单,以利用NLP模型而不具有高级数据科学知识。拥抱Face的NLP模型的开源存储库也是这方面的一步。

“但是拥有这些模型在生产中运行仍然很难,并且甚至比以前更难,因为这些全新的车型在资源方面非常苛刻。”

NLPCloud.IO提供的型号被选为性能 - 其中“最佳”意味着它具有“精度和速度之间的最佳折衷”。 Salinas还表示他们正在向上下文付出思想,给定NLP可以用于不同的用户案例 - 因此提出了模型的数量,以便能够适应给定的使用。

“最初,我们开始使用专门提取的模型,但我们的大多数客户也要求其他用例,因此我们开始添加其他型号,”他指出,添加了他们将继续从两个所选框架中添加更多型号 - “为了覆盖更多用例,和更多的语言”。

同时,隐喻和拥抱面部被选为通过其API作为公司的轨道记录作为公司,他们提供的NLP库和他们的专注于生产准备框架 - 以及允许NLPCloud.io的组合根据Salina的说法,提供一系列快速准确,在各自权衡的范围内工作。

“SPACY是由德国德国的坚实公司开发的。该图书馆已成为希望在生产“真实”生产中的公司中最常用的NLP库之一(仅与学术研究相反)。原因在于它是非常快的,在大多数情况下都有很大的准确性,并且是一种有象征的“框架,使非数据科学家使用非常简单(权衡就是它提供了较少的定制可能性),”他说。

“拥抱脸是一个更加坚实的公司,最近筹集了40米,有充分的理由:他们创建了一个称为”变形金刚“的中断的NLP库,可以提高NLP模型的准确性(衡量是非常资格的强度) 。它有机会涵盖更多用例,如情感分析,分类,摘要......除此之外,它们创建了一个开源存储库,易于选择您使用案例所需的最佳型号。“

虽然AI正在在某些轨道内的剪辑中推进 - 例如NLP英语 - 仍有警告和潜在的陷阱来自动化语言处理和分析,风险错误或更糟。例如,在人生成的数据上培训的AI模型已经显示了反映了产生底层数据的人的嵌入式偏差和偏见。

SalinaS同意NLP有时可以面对“关于偏见问题”,例如种族主义和厌恶。但他对他们所选择的模型表示信心。

“大多数时间似乎[NLP中的偏见]是由于用于培训模型的底层数据。它表明我们应该更加小心这种数据的起源,“他说。 “在我看来,为了缓解这一点,最佳解决方案是,NLP用户的社区应该在使用特定模型时积极地报告不合适的东西,以便可以暂停和修复此模型。”

“即使我们怀疑我们提出的模型中存在这样的偏见,我们也会鼓励用户向我们报告这些问题,以便我们可以采取措施,”他补充道。