常识又一个 AI 自动写作神器，开源了！

liukai · 发表于 2023-8-24 13:22:16

　　最近两天，高考终于出分了！你们考得咋样？QQ 空间上转得那 10 条锦鲤起作用了吗？能让爸妈给换新 iPhone 吗？和妹子报同所学校有戏不？AI生成自我介绍https://intro.pangfanqie.com/的最新消息欢迎进入网站了解，网站有专业的客服人员进行详细的解答！

　　好了，不装嫩凑热闹了，我参加高考都十年前的事儿了。

　　遥想当年考场挥斥方遒，可以说是我人生文化水平的巅峰，下笔如有神。而看看今年的高考作文题目，别说写了，曹公的这几句话都不见得能读懂几分，以现在的水平我可能连机器都考不过。

　　emmm 不是可能，是真的连机器都考不过。不是我小瞧自己，是如今的 AI 在写作这一块真的太厉害了。不信你看这篇文章：

　　这篇鲁迅体风格十足的文章，正是由浪潮信息推出的全球最大规模中文人工智能巨量模型 “源 1.0” 生成。

　　我大抵是没见过世面，思来想去不知输在了哪里，起身看了看，这惭愧没由头，黯黯然翻了翻这两篇作文，一篇是 AI 写得，另一篇也是 AI 写得。

　　好了，解除鲁迅先生 emo 版附体，话说回来，“源 1.0” 能写出这样的文章有迹可循：“源” 的单体模型参数量达 2457 亿，单在阅读方面，小源就 “读” 过 300 万本书。

　　所以能写出这样的高质量作文也不足为奇，不仅如此，它甚至还会写文综…… 分析汽车尾气对小花小草的生态影响、探讨中国科技发展史……

　　尽管 AI 应用于文字创作并不算新鲜事，但 AI 大模型的出现还是一再给人带来惊喜，创作形式和内容也变得更加丰富多彩。

　　过去两年，AI 巨量模型在业内引起开发风潮。

　　大规模模型虽好，但落地应用过程中还需解决性能以及成本的阻碍。

　　在产业 AI 应用落地过程中，如何大模型产业化应用，让模型的能力变得更加 “小、快、灵”。

　　基于大模型快速蒸馏出轻量化标准化的技能模型，将大模型沉淀的知识、认知推理能力及泛化能力向技能模型输出，同时技能模型可专注在特定场景做极致优化，提升性能与效率，已成为新的发展趋势。

　　根据当下的应用需求，浪潮信息推出了全球领先中文 AI 大模型 “源 1.0” 的最新成果，基于 “源 1.0” 千亿大模型蒸馏出 4 个百亿参数规模的技能模型：知识增强的对话模型、知识检索问答模型、中英文翻译模型、古文理解模型。

　　蒸馏成技能模型后，在相同任务上保留 98% 的基础模型效果的同时，推理速率能提升 9 倍甚至更多。

　　同时，技能模型还可以与巨量模型协同进化，将执行结果反馈给巨量模型，巨量模型的知识与能力持续进化，形成一套有机循环的系统，落地场景越多、模型进化得 “越聪明”，同时模型进化的速度也越快。

　　如此的降本增效，可以让行业用户甚至是中小用户也能使用大模型进行深度创新，而这四个模型也正是基于 NLP 技术最常上岗的各类场景。

　　“源” 开发团队为模型选择的数据也是精且全，可开发出才高八斗的 “文化 bot”，也可开发出对答如流的 “社会 bot”，还能开发出满足人相对高阶情感需求的 “知心 bot”。

　　来看下这四个蒸馏出的技能模型都达到了怎样的水平：

　　古文理解模型（源晓文）在源大模型精读了 5000GB 高质量中文的基础上，又学习了先秦到近代几乎所有诗词，并精选其中最优秀的 10 万首进行强化训练。可广泛应用于文学创作、古诗文教学、汉语言文化研究等场景中。

　　对话技能模型（源晓问）在源大模型基础上，采用了 2660 万条医疗、法律、保险等不同行业，历史、电影、娱乐等不同场景的对话语料数据进行强化训练，源晓问可广泛应用于虚拟人、智能助手、智能客服等场景。

　　中英翻译技能模型（源晓译）基于源大模型阅读的海量高质量数据集，采用维基百科、书籍、联合国文件及字幕组等近 80G 高质量数据集进行强化训练，可轻松应对日常对话、新闻、哲学、小说等日常的语言翻译任务。

　　知识检索问答技能模型（源晓搜）链接了包含了维基百科、书籍等知识的数据库，根据用户提问的内容，利用高性能检索方法，可广泛应用于医疗、法律、保险及娱乐等领域的智能客服、个人助理等场景。

　　当然，考虑到智能客服覆盖的领域不同，领域知识已经被预先编码到的知识库中，如果开发者想切换不同的应用领域，只需要替换知识库即可，不需要重新训练这个模型，可以做到应用在不同专业领域之间的迁移。

　　自去年 10 月发布以来，“源 1.0” 已经快速投入应用实践中，在企业开发团队和个人开发者的 “真刀真枪” 中不断成长，取得了不斐的成绩：

　　例如，超 600 家用户，采用 “源 1.0” 提供的数据和 API 显著提升了金融、互联网、医疗和自动驾驶等行业应用的精度；

　　源 1.0 已经与多个行业用户开展深度合作，支持手机智能语音助手、大型互联网翻译平台等应用的 AI 智能化升级……

　　除了这些相对 “常规” 的操作，不少开源社区的开发者们通过源 1.0 的开放开源平台进行了创意实现。

　　“AI 剧本杀” 就是其中代表，曾在 GitHub 引发热烈讨论。

　　GitHub：bigbrother666shair.inspur.com/home

　　借助源 1.0 的开放开源的能力，AI 开发者可以快速的享受大模型带来的便利：

　　包括可以直接调用的开放模型 API—— 显著降低了开发者应用开发的门槛；

　　并且，浪潮开源了直接可用的代码示例，包括高质量中文数据集，开源模型训练代码、推理代码和应用代码等，可以帮助开发者节省各类研发开支。

　　如此，开发者无需关心底层技术，设置无需配置编程环境，就可以直接将应用构建于 AI 大模型的能力之上，在降低开发门槛的同时，让开发人员能够将更多的精力聚焦核心业务逻辑。

　　围绕 AI 大模型构建的算法基础设施，“源” 开源社区建设再次升级。

　　目前，源的 API 和数据已经面向教科研、互联网、制造业等多个产业超过 600 家用户开放使用。开发团队已提供源 1.0 巨量模型、四个百亿领域模型和模型工具、开发者工具及行业合作服务。

　　同时，源的官网同步开放和上线了 APIExp 和 Web 应用 Sandbox（沙箱）开发工具，开发者可在 APIExp 上设置参数，零代码调用和测试所有已开放的模型服务。

　　Sandbox 开发工具可以让开发者仅修改少量代码，即可完成包含 web 交互的应用示例，从而快速验证业务逻辑和功能效果。

　　未来，“源” 还会进一步开放模型在线蒸馏、领域模型下载等服务，并完善和丰富更多基于大模型的应用示例。

　　低代码、低门槛，开发工具齐全、开箱即用…… 这些特点以及 NLP 巨量模型自身的魅力与潜力，让更多的、不限技术水平的开发者都有机会尝试大模型应用。

　　一项技术的出现，起初确实需要聚焦精炼技术和底层开发，夯实基础，而若发展到后来，它也必将 “往上走”—— 慢慢解放人类曾被限制的想象力、服务于缤纷多彩的创意，甚至会帮助证实那些曾被嘲笑是天马行空的幻想。

　　借用 “小源鲁迅体” 作文中的一句话：“中国青年要创造，我们要或挑战，或因势利导，或顺势而为。”

　　所以，想怎么用 “源”，看诸君咯。

　　文中所提到的所有开源项目，已收录至 GitHubDaily 的开源项目列表中，有需要的，可访问下方 GitHub 仓库查看：

　　GitHub：GitHubDaily/GitHubDaily

　　文末，照旧安利一波我们的公众号：GitHubDaily，主要分享比较实用或有趣的开发工具与 GitHub 开源项目，偶尔也会聊聊技术圈内最近发生的新鲜事，感兴趣的小伙伴可以关注一下～