dxd-log

📗 Docs

Memo | Choices to Deploy DeepSeekR1

Memo | Deploying DeepSeekR1 on Ascend Card

LLM | RAG System Learning and Thinking

Jan 4, 2025

Prepare for School Information Assistant

Memo | Ubuntu 修改 PS1

Jan 3, 2025

bashrc里一个控制命令提示符显示的变量

Memo | Clash-for-windows正确开启Tun模式

挺麻烦的，不然节点显示Error连不上

ProbSolv | pip no build isolation开关的观察

Dec 19, 2024

以后再提示torch和本机CUDA不匹配的时候可以试试带上它

Memo | Arc 浏览器 UWP 限制解除

LLM | Machine Unlearning

机器反学习，选择性遗忘

DLBasic | AI/ML Revision

Dec 7, 2024

可能会偏数学

papers | Learning to (Learn at Test Time): RNNs with Expressive Hidden States

将隐藏状态建模成可训练的模型

papers | From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning

提出了一个指令遵循难度指标

Memo | 无root权限安装zsh

Tools | github镜像前缀

https://ghp.ci/

Tools | 保存dataframe

读大的excel文件慢，可以存df

Memo | win11安装wsl2和docker

Notes | 读论文积累经验

Sep 4, 2024

有些东西不知道咋写看看

blog/report

papers | Rethinking Data Selection for Supervised Fine-Tuning

Sep 4, 2024

主要讲SFT数据选择不应太关注于数据质量和多样性（预训练数据才关注）

papers

papers | Aligning Large Language Models with Human: A Survey

数据对齐

Tools | Linux命令行从百度云下载文件到服务器

也很慢，但能用

Tools | git 101

git从零到一

BioInfo | papers | BioInfo+LLM (生信)

Memo | ssh免密登陆

Apr 23, 2024

1.本地生成一对key；2.将.pub上传到远程主机的authorized_keys

Tools | HF被墙替代方案

Apr 23, 2024

提供两种方案：modelscope和镜像站

BioInfo | papers | Benchmarking spatial clustering methods with spatially resolved transcriptomics data

研组布置的文献阅读任务。。。啥也不会

LLM | (小白向) hf模型页的各种文件是啥

Mar 28, 2024

LLM纯小白向-1

LLM | 关于llm的tokenizer

Mar 25, 2024

Foundation | Overfitting

Mar 24, 2024

过拟合—本质

papers | Grokking of Hierarchical Structure in Vanilla Transformers

Mar 24, 2024

过度训练让中度模型「涌现」结构泛化能力('fake it till you make it)

blog/report

LLM | Re:从零开始的预训练~1b模型

分享会记录

Meeting | GTC 2024 Notes

记录

Memo | 将Devcpp的gcc配置到系统环境变量

Mar 14, 2024

重装系统，重装devcpp发现cmd没法用gcc/g++，不方便命令行编译，需要重新写进环境变量

win

Foundation | HandsOnDL-pytorch

Mar 8, 2024

对torch的tensor操作等再熟悉一下，为手撕系列开坑做准备

ProbSolv | vim粘贴缩进错乱

进入粘贴模式

ProbSolv | docker daemon重启报错起不来

reload一下

Tools | curl下载魔搭指定文件

Feb 28, 2024

在有单一模型文件损坏时很好用的这个方法

Meeting | 华为推理交流 - 910b & 新卡 800I A2

无

ProbSolv | conda报SSL错误

Feb 26, 2024

一种可能是开梯但是conda镜像设置了国内，还有可能是相反

probsolving

ProbSolv | git clone报错gnutls_handshake() failed

代理设置出错，只需重置代理即可

LLM | Gemma

据说性能很强悍

Research | ViT & ViViT & DiT

Feb 23, 2024

看Sora顺带看这个，不然看不懂

CUDA | BlogNote-Optimize Matmul Kernel

先看着点，等闲了系统学下CUDA编程

LLM | CloseAI-Sora初步了解

文生视频模型，感觉pika要凉……

ProbSolv | win进行ssh连接和scp的坑

win干这种事好麻烦

EXP | LLM-QAT Experiments

Feb 5, 2024

LLM-QAT论文的实验+KDTrainer实现细看

GPU | GPU虚拟化：直通 & vGPU

GPU的虚拟化方法

Tools | pycallgraph

一个函数调用可视化工具

GPU | A800 PCIe & SXM4 Differences

另外附上PCIe不同lanes的速度

ProbSolv | 惠普战66三代Intel版升级win11

坑爹的阉割版没法开tpm

CodeBank | MyToolCodes

一些写过的数据处理、可视化、工具代码

Foundation | Gradient Explosion

Jan 24, 2024

梯度裁剪—应对梯度爆炸的方案

Research | LLM Quantization

主要看量化感知训练和ft，后量化不做重点

papers | FlexGen

Jan 19, 2024

见过两次了，通过它了解一下prefill的概念

papers | RoSA

RoSA:一个新的低秩微调方案

Tools | nvidia smi 监控矩阵

rxpci txpci等

ProbSolv | bash换到zsh原有命令没了

zsh大法好

Tools | nvidia软件栈版本查看

Nvidia 驱动版本 cuda版本查看

Memo | Docker镜像制作流程记录

记录一下吧，以后应该还会用到

Tools | hf镜像站+huggingface-cli

解决huggingface被墙

Foundation | Backpropagation

Jan 15, 2024

back-propagation

Tools | cuda.memory_reserved()查看显存&visualize

Jan 11, 2024

PyTorch使用缓存分配器来加速内存分配。缓存分配器中未被占用的内存，nvidia-smi也显示为使用

Tools | iterm2

Jan 9, 2024

iterm2基本用法、profile配置、sshpass配置

papers | ZeRO-Offload: Democratizing Billion-Scale Model Training

Jan 8, 2024

为了降低显存占用，将部分数据和计算放到CPU上

Thoughts

不知

Tools | Tmux

Jan 3, 2024

一些基本和进阶用法

Memo | vllm/tgi部署流程

vllm和tgi框架进行推理性能测试

ProbSolv | nvidia-smi NVML/driver版本不对

重装驱动

ProbSolv | VSCode连服务器无权限新建/修改文件

Jan 1, 2024

一个小问题，sudo chown -R即可

probsolving

papers | Reducing Activation Recomputation in Large Transformer Models

Dec 21, 2023

NV的论文,晓慧姐放在issue上的;提出了sequence parallelism

Tools | Docker

Dec 20, 2023

docker使用很全

Foundation | Softmax with Temperature

Dec 19, 2023

模型蒸馏论文第一次提出的带有温度的softmax，为了保持类别之间的相关性的信息

papers | Distilling the Knowledge in a Neural Network

模型蒸馏的始祖论文

papers | Adaptive Mixtures of Local Experts

Dec 15, 2023

MoE的元老级paper,探讨了合作和竞争的损失函数,提出了gate network选择一个专家

papers

ProbSolv | fabricmanager与驱动版本不匹配导致cuda.is_available为False

Dec 14, 2023

A800遇到2次了，是因为nvidia-fabricmanager自动升级了，降级成匹配的驱动版本就行

【Tools】

Dec 13, 2023

Tools memo.

Research | AI Agents

Agents的调研

Research | Sparse Tensor Core

NV-ampere架构的Sparse方案

Research | Mixtral 8x7B

Dec 13, 2023

mistral新的MoE模型，据说很强