1. 四行代码让大模型上下文暴增3倍，羊驼Mistral都适用
2. 智源BGE之后再出新品: Activation Beacon将LLM输入长度提升100倍(4K飞跃到400K)
3. 首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%
4. 央企第一家：中国电信开源星辰语义大模型，共享超1T 高质基础数据
5. LLM 预训练语料、预处理和数据集索引、加载总结
6. 2080 Ti就能跑70B大模型，上交大新框架让LLM推理增速11倍

24年1月哒鸽甄选

介绍下之前黑客爆料GPT-4中应用的MoE到底是什么东西。

MoE（混合专家模型）

1. 无限长文本：LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models
2. 1个参数将外推推导到1M上下文，Scaling Laws of RoPE-based Extrapolation

论文阅读——长文本外推论文2篇

Flash Decoding理解

论文阅读——StreamingLLM、GPT-4V

张量并行补遗

1. DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models，减少大模型幻觉。
2. LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models (arxiv.org)，节省超长文本微调的资源占用。

论文阅读——2023.9.21

记录一些大模型使用技巧，不定期更新。

大模型使用技巧总结（不定期补充）

总结下从18年到ChatGPT兴起前笔者的信息抽取相关工作的实践经历。结构化抽取一般涉及到的NLP任务有：实体抽取、关系抽取、事件抽取等，其中实体抽取又分为普通实体抽取（无嵌套无不连续）、嵌套实体抽取、非连续实体抽取。本文将介绍这些任务在工业界落地过程中比较好的baseline模型，在阅读完后，你会发现实体抽取、关系抽取、事件抽取在Transformer类模型兴起的今天，解决思路大同小异，甚至完全可以用一个模型解决此类所有任务。

结构化抽取实践总结

1. Text classification with gzip：gzip来做文本分类
2. Stack More Layers Differently: High-Rank Training Through Low-Rank Updates：探索预训练过程也使用Lora技术会怎么样

论文阅读——2023.8.3

ChatGLM V2与ChatGLM V1相比，完全颠覆了GLM的模型架构，甚至可以说这是一个迥异于一代版本的新的框架。

ChatGLM2解读

GBDT与社团发现

在ChatGLM刚开源时，是在一众中文LLMs中属于效果比较拔尖的，且属于开源程度也比较高的，有必要对其进化史进行一波总结分析。

ChatGLM一代版本剖析

最新有研究人员发现Attention公式中有bug，8年都没人发现，目前所有基于Transformer的模型都受到了影响，结果发现是softmax实现有问题。

主流实现的Softmax有Bug？未必！

主要整理下LayerNorm的理解。CV中LayerNorm实现的是对除了batch size以为的做标准化，而NLP中只对Embedding dim做标准化。

LayerNorm在NLP和CV的使用区别

Meta在上周发布了LLaMA的第二个版本Llama2，本篇将整理下对这篇文章的一些理解。

Llama2论文粗解

总结下peft中涉及到的一些微调算法

PEFT封装算法学习

论文速读——2023.7.21

总结下transformer的Attention相关变种，剖析下他们的差异点。

Attention调研总结（2023.7）

一些大模型外推能力突破的调研，有需要整体改变结构的，也有只需要微调即可突破的。

突破大语言模型长度外推方式调研

总结下近期看到的类似RoPE的大模型外推文章

RoPE引起的长度外推思考

项目落地过程中经常遇到已经训练好的NER模型，需要加入一些新的实体类型，然而新增数据并没有标注以前的实体标签的情况。这时就需要一个策略来合并新老不同实体类型标注数据，本文提出了一个较为简单粗暴的做法。

关于NER增量标签的思考

调研下Python代码加密，实现了一版：https://pypi.org/project/pylicenser/

Python代码加密实现

远程操纵家（或办公室）中主机——内网渗透

总结下一维搜索的常用方法，并示例实现。

一维搜索方法总结

对拟牛顿法LBFGS进行算法实现。

L-BFGS算法剖析

SWATS是ICLR在2018的高分论文，提出的一种自动由Adam切换为SGD而实现更好的泛化性能的方法。

SWATS算法剖析(自动切换adam和sgd)

梳理下另一种拟牛顿法的实现——BFGS。

BFGS算法剖析与实现

1994年长尾真提出的一种通过无监督方法从预料中进行新词发现的算法。

Nagao算法剖析与实现

拟牛顿法之DFP算法剖析

近期做了一些关于知识推理的工作，主要是进行实体关系补全。目前采用了EMNLP2015这篇paper的实现。论文为Efficient and Expressive Knowledge Base Completion Using Subgraph Feature Extraction. Matt Gardner and Tom Mitchell. EMNLP 2015.