https://github.com/HqWu-HITCS/Awesome-Chinese-LLM 整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。
Awesome-Chinese-LLM
An Awesome Collection for LLM in Chinese
收集和梳理中文LLM相关
自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料。
截止到当前,本仓库已收录的项目数量分布如下:
总项目数
底座模型
LLM应用
数据集
评测基准
LLM教程
相关项目
87
21
25
15
11
6
9
如果本项目能给您带来一点点帮助,麻烦点个⭐️ 吧~
同时也欢迎大家贡献本项目未收录的开源模型、应用、数据集等。提供新的仓库信息请发起PR,并按照本项目的格式提供仓库链接、简介以及修改相应的仓库数量,感谢~
目录
1. Model
ChatGLM:
VisualGLM-6B
地址:https://github.com/THUDM/VisualGLM-6B
简介:一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练。
Chinese-LLaMA-Alpaca:
OpenChineseLLaMA:
BELLE:
Panda:
Ziya-LLaMA-13B:
BiLLa:
地址:https://github.com/Neutralzz/BiLLa
简介:该项目开源了推理能力增强的中英双语LLaMA模型。模型的主要特性有:较大提升LLaMA的中文理解能力,并尽可能减少对原始LLaMA英文能力的损伤;训练过程增加较多的任务型数据,利用ChatGPT生成解析,强化模型理解任务求解逻辑;全量参数更新,追求更好的生成效果。
Moss:
Luotuo-Chinese-LLM:
Linly:
地址:https://github.com/CVI-SZU/Linly
简介:提供中文对话模型 Linly-ChatFlow 、中文基础模型 Linly-Chinese-LLaMA 及其训练数据。 中文基础模型以 LLaMA 为底座,利用中文和中英平行增量预训练。项目汇总了目前公开的多语言指令数据,对中文模型进行了大规模指令跟随训练,实现了 Linly-ChatFlow 对话模型。
ChatYuan
ChatRWKV:
CPM-Bee
地址:https://github.com/OpenBMB/CPM-Bee
简介:一个完全开源、允许商用的百亿参数中英文基座模型。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。
TigerBot
书生·浦语
Aquila
baichuan-7B
Anima
地址:https://github.com/lyogavin/Anima
简介:由艾写科技开发的一个开源的基于QLoRA的33B中文大语言模型,该模型基于QLoRA的Guanaco 33B模型使用Chinese-Vicuna项目开放的训练数据集guanaco_belle_merge_v1.0进行finetune训练了10000个step,基于Elo rating tournament评估效果较好。
KnowLM
地址:https://github.com/zjunlp/KnowLM
简介:KnowLM项目旨在发布开源大模型框架及相应模型权重以助力减轻知识谬误问题,包括大模型的知识难更新及存在潜在的错误和偏见等。该项目一期发布了基于Llama的抽取大模型智析,使用中英文语料对LLaMA(13B)进行进一步全量预训练,并基于知识图谱转换指令技术对知识抽取任务进行优化。
BayLing
地址:https://github.com/ictnlp/BayLing
简介:一个具有增强的跨语言对齐的通用大模型,由中国科学院计算技术研究所自然语言处理团队开发。百聆(BayLing)以LLaMA为基座模型,探索了以交互式翻译任务为核心进行指令微调的方法,旨在同时完成语言间对齐以及与人类意图对齐,将LLaMA的生成能力和指令跟随能力从英语迁移到其他语言(中文)。在多语言翻译、交互翻译、通用任务、标准化考试的测评中,百聆在中文/英语中均展现出更好的表现。百聆提供了在线的内测版demo,以供大家体验。
2. Application
2.1 垂直领域微调
医疗
法律
LaWGPT:基于中文法律知识的大语言模型
LexiLaw:中文法律大模型
Lawyer LLaMA:中文法律LLaMA
地址:https://github.com/AndrewZhe/lawyer-llama
简介:开源了一系列法律领域的指令微调数据和基于LLaMA训练的中文法律大模型的参数。Lawyer LLaMA 首先在大规模法律语料上进行了continual pretraining。在此基础上,借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题(以下简称法考)的分析和对法律咨询的回答,利用收集到的数据对模型进行指令微调,让模型习得将法律知识应用到具体场景中的能力。
金融
教育
桃李(Taoli):
地址:https://github.com/blcuicall/taoli
简介:一个在国际中文教育领域数据上进行了额外训练的模型。项目基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等,构建了国际中文教育资源库,构造了共计 88000 条的高质量国际中文教育问答数据集,并利用收集到的数据对模型进行指令微调,让模型习得将知识应用到具体场景中的能力。
数学
文化
2.2 LangChain应用
Chinese-LangChain:
langchain-ChatGLM:
2.3 外部挂件应用
wenda:
JittorLLMs:
WebCPM
GPT Academic:
ChatALL:
3. Dataset
RefGPT:基于RefGPT生成大量真实和定制的对话数据集
COIG
generated_chat_0.4M:
alpaca_chinese_dataset:
Alpaca-CoT:
pCLUE:
firefly-train-1.1M:
BELLE-data-1.5M:
Chinese Scientific Literature Dataset:
Chinese medical dialogue data:
Huatuo-26M:
Alpaca-GPT-4:
InstructionWild
ShareChat
地址:https://paratranz.cn/projects/6725
数据集说明:一个倡议大家一起翻译高质量 ShareGPT 数据的项目。
项目介绍:清洗/构造/翻译中文的ChatGPT数据,推进国内AI的发展,人人可炼优质中文 Chat 模型。本数据集为ChatGPT约九万个对话数据,由ShareGPT API获得(英文68000,中文11000条,其他各国语言)。项目所有数据最终将以 CC0 协议并入 Multilingual Share GPT 语料库。
Guanaco
chatgpt-corpus
4. Evaluation
FlagEval (天秤)大模型评测体系及开放平台
地址:https://flageval.baai.ac.cn/#/home
简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval (天秤)创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。
C-Eval: 构造中文大模型的知识评估基准:
SuperCLUElyb: SuperCLUE琅琊榜
GAOKAO-Bench:
AGIEval:
Xiezhi:
Open LLM Leaderboard:
chinese-llm-benchmark:
Safety-Prompts:
PromptCBLUE: 中文医疗场景的LLM评测基准
5. Tutorial
6. Related Repository
FindTheChatGPTer:
LLM_reviewer:
Awesome-AITools:
open source ChatGPT and beyond:
地址:https://github.com/SunLemuria/open_source_chatgpt_list
简介:This repo aims at recording open source ChatGPT, and providing an overview of how to get involved, including: base models, technologies, data, domain models, training pipelines, speed up techniques, multi-language, multi-modal, and more to go.
Awesome Totally Open Chatgpt:
Awesome-LLM:
地址:https://github.com/Hannibal046/Awesome-LLM
简介:This repo is a curated list of papers about large language models, especially relating to ChatGPT. It also contains frameworks for LLM training, tools to deploy LLM, courses and tutorials about LLM and all publicly available LLM checkpoints and APIs.
DecryptPrompt:
Awesome Pretrained Chinese NLP Models:
ChatPiXiu:
作者
Star History