西虹市网

标题: 常识又一个 AI 自动写作神器,开源了! [打印本页]

作者: liukai    时间: 2023-8-24 13:22
标题: 常识又一个 AI 自动写作神器,开源了!

  最近两天,高考终于出分了!你们考得咋样?QQ 空间上转得那 10 条锦鲤起作用了吗?能让爸妈给换新 iPhone 吗?和妹子报同所学校有戏不?AI生成自我介绍https://intro.pangfanqie.com/的最新消息欢迎进入网站了解,网站有专业的客服人员进行详细的解答!


  好了,不装嫩凑热闹了,我参加高考都十年前的事儿了。

  遥想当年考场挥斥方遒,可以说是我人生文化水平的巅峰,下笔如有神。而看看今年的高考作文题目,别说写了,曹公的这几句话都不见得能读懂几分,以现在的水平我可能连机器都考不过。

  emmm 不是可能,是真的连机器都考不过。不是我小瞧自己,是如今的 AI 在写作这一块真的太厉害了。不信你看这篇文章:

  这篇鲁迅体风格十足的文章,正是由浪潮信息推出的全球最大规模中文人工智能巨量模型 “源 1.0” 生成。

  我大抵是没见过世面,思来想去不知输在了哪里,起身看了看,这惭愧没由头,黯黯然翻了翻这两篇作文,一篇是 AI 写得,另一篇也是 AI 写得。

  好了,解除鲁迅先生 emo 版附体,话说回来,“源 1.0” 能写出这样的文章有迹可循:“源” 的单体模型参数量达 2457 亿,单在阅读方面,小源就 “读” 过 300 万本书。

  所以能写出这样的高质量作文也不足为奇,不仅如此,它甚至还会写文综…… 分析汽车尾气对小花小草的生态影响、探讨中国科技发展史……

  尽管 AI 应用于文字创作并不算新鲜事,但 AI 大模型的出现还是一再给人带来惊喜,创作形式和内容也变得更加丰富多彩。

  过去两年,AI 巨量模型在业内引起开发风潮。

  大规模模型虽好,但落地应用过程中还需解决性能以及成本的阻碍。

  在产业 AI 应用落地过程中,如何大模型产业化应用,让模型的能力变得更加 “小、快、灵”。

  基于大模型快速蒸馏出轻量化标准化的技能模型,将大模型沉淀的知识、认知推理能力及泛化能力向技能模型输出,同时技能模型可专注在特定场景做极致优化,提升性能与效率,已成为新的发展趋势。

  根据当下的应用需求,浪潮信息推出了全球领先中文 AI 大模型 “源 1.0” 的最新成果,基于 “源 1.0” 千亿大模型蒸馏出 4 个百亿参数规模的技能模型:知识增强的对话模型、知识检索问答模型、中英文翻译模型、古文理解模型。

  蒸馏成技能模型后,在相同任务上保留 98% 的基础模型效果的同时,推理速率能提升 9 倍甚至更多。

  同时,技能模型还可以与巨量模型协同进化,将执行结果反馈给巨量模型,巨量模型的知识与能力持续进化,形成一套有机循环的系统,落地场景越多、模型进化得 “越聪明”,同时模型进化的速度也越快。

  如此的降本增效,可以让行业用户甚至是中小用户也能使用大模型进行深度创新,而这四个模型也正是基于 NLP 技术最常上岗的各类场景。

  “源” 开发团队为模型选择的数据也是精且全,可开发出才高八斗的 “文化 bot”,也可开发出对答如流的 “社会 bot”,还能开发出满足人相对高阶情感需求的 “知心 bot”。

  来看下这四个蒸馏出的技能模型都达到了怎样的水平:

  古文理解模型(源晓文)在源大模型精读了 5000GB 高质量中文的基础上,又学习了先秦到近代几乎所有诗词,并精选其中最优秀的 10 万首进行强化训练。可广泛应用于文学创作、古诗文教学、汉语言文化研究等场景中。

  对话技能模型(源晓问)在源大模型基础上,采用了 2660 万条医疗、法律、保险等不同行业,历史、电影、娱乐等不同场景的对话语料数据进行强化训练,源晓问可广泛应用于虚拟人、智能助手、智能客服等场景。

  中英翻译技能模型(源晓译)基于源大模型阅读的海量高质量数据集,采用维基百科、书籍、联合国文件及字幕组等近 80G 高质量数据集进行强化训练,可轻松应对日常对话、新闻、哲学、小说等日常的语言翻译任务。

  知识检索问答技能模型(源晓搜)链接了包含了维基百科、书籍等知识的数据库,根据用户提问的内容,利用高性能检索方法,可广泛应用于医疗、法律、保险及娱乐等领域的智能客服、个人助理等场景。

  当然,考虑到智能客服覆盖的领域不同,领域知识已经被预先编码到的知识库中,如果开发者想切换不同的应用领域,只需要替换知识库即可,不需要重新训练这个模型,可以做到应用在不同专业领域之间的迁移。

  自去年 10 月发布以来,“源 1.0” 已经快速投入应用实践中,在企业开发团队和个人开发者的 “真刀真枪” 中不断成长,取得了不斐的成绩:

  例如,超 600 家用户,采用 “源 1.0” 提供的数据和 API 显著提升了金融、互联网、医疗和自动驾驶等行业应用的精度;

  源 1.0 已经与多个行业用户开展深度合作,支持手机智能语音助手、大型互联网翻译平台等应用的 AI 智能化升级……

  除了这些相对 “常规” 的操作,不少开源社区的开发者们通过源 1.0 的开放开源平台进行了创意实现。

  “AI 剧本杀” 就是其中代表,曾在 GitHub 引发热烈讨论。

  GitHub:bigbrother666shair.inspur.com/home

  借助源 1.0 的开放开源的能力,AI 开发者可以快速的享受大模型带来的便利:

  包括可以直接调用的开放模型 API—— 显著降低了开发者应用开发的门槛;

  并且,浪潮开源了直接可用的代码示例,包括高质量中文数据集,开源模型训练代码、推理代码和应用代码等,可以帮助开发者节省各类研发开支。

  如此,开发者无需关心底层技术,设置无需配置编程环境,就可以直接将应用构建于 AI 大模型的能力之上,在降低开发门槛的同时,让开发人员能够将更多的精力聚焦核心业务逻辑。

  围绕 AI 大模型构建的算法基础设施,“源” 开源社区建设再次升级。

  目前,源的 API 和数据已经面向教科研、互联网、制造业等多个产业超过 600 家用户开放使用。开发团队已提供源 1.0 巨量模型、四个百亿领域模型和模型工具、开发者工具及行业合作服务。

  同时,源的官网同步开放和上线了 APIExp 和 Web 应用 Sandbox(沙箱)开发工具,开发者可在 APIExp 上设置参数,零代码调用和测试所有已开放的模型服务。

  Sandbox 开发工具可以让开发者仅修改少量代码,即可完成包含 web 交互的应用示例,从而快速验证业务逻辑和功能效果。

  未来,“源” 还会进一步开放模型在线蒸馏、领域模型下载等服务,并完善和丰富更多基于大模型的应用示例。

  低代码、低门槛,开发工具齐全、开箱即用…… 这些特点以及 NLP 巨量模型自身的魅力与潜力,让更多的、不限技术水平的开发者都有机会尝试大模型应用。

  一项技术的出现,起初确实需要聚焦精炼技术和底层开发,夯实基础,而若发展到后来,它也必将 “往上走”—— 慢慢解放人类曾被限制的想象力、服务于缤纷多彩的创意,甚至会帮助证实那些曾被嘲笑是天马行空的幻想。

  借用 “小源鲁迅体” 作文中的一句话:“中国青年要创造,我们要或挑战,或因势利导,或顺势而为。”

  所以,想怎么用 “源”,看诸君咯。

  文中所提到的所有开源项目,已收录至 GitHubDaily 的开源项目列表中,有需要的,可访问下方 GitHub 仓库查看:

  GitHub:GitHubDaily/GitHubDaily

  文末,照旧安利一波我们的公众号:GitHubDaily,主要分享比较实用或有趣的开发工具与 GitHub 开源项目,偶尔也会聊聊技术圈内最近发生的新鲜事,感兴趣的小伙伴可以关注一下~
作者: 浪中漂泊    时间: 2023-8-24 21:20
帮你顶下哈!!
作者: 浪中漂泊    时间: 2023-8-25 08:00
不知该说些什么。。。。。。就是谢谢
作者: xubin    时间: 2023-8-25 12:53
帮帮顶顶!!
作者: 曲终人散    时间: 2023-8-25 15:33
路过,支持一下啦
作者: 织梦者    时间: 2023-8-26 08:01
学习了,谢谢分享、、、
作者: 黯然    时间: 2023-8-26 11:54
帮帮顶顶!!




欢迎光临 西虹市网 (http://bbs.xihong021.cn/) Powered by Discuz! X3