1024 维度

发表于2025-06-07|计算机网络网络安全

NoSQL 注入是一种Web安全漏洞，类似于传统的 SQL 注入，但它针对的是 NoSQL 数据库系统。当应用程序在构建 NoSQL 数据库查询时，未能正确地清洗或参数化来自用户输入的数据时，攻击者可以通过注入恶意构造的字符串或数据结构，来篡改查询的逻辑，从而绕过认证、获取未经授权的数据，甚至执行远程代码。核心思想：利用 NoSQL 数据库查询语言的灵活性及其对数据类型（特别是 JSON 或类似 BSON 格式）的处理方式，将恶意数据作为查询逻辑的一部分注入，从而改变预期的查询行为。一、为什么存在 NoSQL 注入？对传统 SQL 注入的继承与发展NoSQL 数据库因其高可伸缩性、灵活性和无模式（schema-less）特性而广受欢迎，但随着其普及，也带来了新的安全挑战。NoSQL 注入就是其中之一。与 SQL 注入的共性：输入验证不足：核心原因都是应用程序未能正确地验证、过滤或转义用户输入。查询构建不当：攻击者能够操纵应用程序构建的数据库查询或命令。信任用户输入：应用程序盲目信任并直接将用户输入拼接到查询中。与 SQL 注入的区别：查询语言不同：...

Golang map 扩容与缩容详解

发表于2025-06-05|Golang程序设计

Golang map 是一种内置的哈希表（hash table）实现，提供了高效的键值对存储和查找功能。其内部机制复杂且高度优化，其中包含了自动的扩容（expansion）逻辑，以适应数据量的增长并保证性能。然而，与扩容不同，Go map 在键值对被删除后不会自动缩容，这在某些场景下可能导致不必要的内存占用。理解 Go map 的扩容和非缩容机制对于编写高性能和内存效率高的 Go 程序至关重要。核心思想：Go map 通过渐进式扩容来平滑处理数据增长带来的性能开销，但在数据减少时，为了避免复杂性和潜在的性能抖动，不提供自动缩容。一、Go map 内部结构概述要理解 map 的扩容和缩容，首先需要了解其底层数据结构。Go map 的底层是一个 hmap 结构体，它管理着一系列的哈希桶（bucket）。 1.1 hmap 结构体hmap 是 map 的运行时表示，包含了一系列关键信息： 12345678910111213type hmap struct { count int // 当前map中kv对的数量 flags ...

LLM中相似性与相关性：概念、度量与应用详解

发表于2025-06-03|AILLM

在大型语言模型 (LLM) 和更广泛的自然语言处理 (NLP) 领域中，相似性 (Similarity) 和相关性 (Relevance) 是两个经常被提及但又有所区别的核心概念。它们都量化了两个文本片段之间的某种关联程度，但在具体含义、度量方法和应用场景上存在微妙但重要的差异。理解这两者的区别与联系，对于构建和优化基于 LLM 的智能系统至关重要。核心思想：相似性通常指文本内容在语义或结构上的“形似”或“意近”，强调固有属性的匹配；而相关性则指文本内容与特定“查询”、“任务”或“上下文”之间的“关联程度”或“有用性”，强调功能性匹配。一、为什么相似性与相关性在 LLM 中如此重要？LLM 通过将文本数据转换为高维向量空间中的数值向量（即嵌入），从而能够捕捉词语和文本的复杂语义。这种表示方法使得计算机可以进行超越简单关键词匹配的语义理解。而相似性和相关性正是这种语义理解的两个重要视角：语义理解的基石：它们让 LLM 能够理解文本的实际含义，而不仅仅是表面文字。信息检索的核心：无论是搜索、问答还是推荐，核心都是找出“最相似”或“最相关”的信息。生成质量的衡量：...

LazyGit使用解析：你的Git命令行效率神器

发表于2025-06-01|开发工具命令行

本文将带你深入了解 LazyGit，一个简单直观的终端 UI Git 客户端。如果你厌倦了反复输入 Git 命令，又觉得 GUI 客户端不够灵活，那么 LazyGit 可能会成为你的新宠。它将终端的强大与 GUI 的便捷完美结合，让你的 Git 工作流变得前所未有的高效和愉悦。对于开发者而言，Git 无疑是日常工作中不可或缺的工具。然而，即使是最熟练的 Git 用户，也可能被一些重复、繁琐的命令行操作所困扰，例如 git add ., git status, git commit -m "...", git log --oneline 等等。虽然有各种图形化 Git 客户端，但它们往往意味着脱离终端环境，或多或少牺牲了速度和灵活性。LazyGit 正是为了解决这一痛点而生的——它提供了一个文本用户界面 (TUI)，让你在终端中就能以图形化的方式快速、直观地执行 Git 操作，大幅提升工作效率。一、为什么选择 LazyGit？LazyGit 并不是简单的 Git 命令别名集合，它提供了一个交互式的视图，将 git status, git branch...

Linux systemd 详解

发表于2025-05-31|开发工具命令行

systemd 是现代 Linux 发行版中广泛采用的系统和服务管理器。它作为一个取代传统 SysVinit 或 Upstart 的初始化系统 (init system)，负责整个系统的启动、服务管理、设备挂载、日志管理、定时任务、网络配置等诸多方面。systemd 的目标是提供一个统一且高效的框架，以便管理整个 Linux 系统的生命周期和资源。核心思想：统一、高效地管理 Linux 系统的初始化进程，以及所有系统服务和资源的生命周期，提供更快的启动速度、更强的依赖管理和更丰富的功能集。一、为什么需要 systemd？在 systemd 出现之前，Linux 系统主要使用 SysVinit （System V init）作为初始化系统，后来一些发行版也尝试了 Upstart。这些传统 init 系统的主要痛点包括：启动速度慢：SysVinit 严格按照 /etc/rcS.d/ 和 /etc/rcX.d/ 目录下的脚本名称顺序，串行地启动服务。这种顺序执行导致启动时间较长。依赖关系处理不佳：SysVinit 通过脚本名称前缀（如 S01foobar, K99f...

tmux (Terminal Multiplexer) 详解

发表于2025-05-30|开发工具命令行

tmux (Terminal Multiplexer) 是一款开源的终端多路复用器。它允许用户在单个终端窗口中创建、访问和控制多个独立的终端会话。tmux 的核心功能是提供会话持久化、多窗口和多窗格管理，极大地提升了命令行用户的工作效率和灵活性。核心思想：将一个物理终端“虚拟化”为多个可独立管理、可持久化的工作空间。一、为什么需要 tmux？传统的终端操作通常是“一个窗口一个进程”。当需要同时运行多个命令、查看多个日志，或者远程连接服务器时，这种模式会遇到诸多不便。tmux 旨在解决这些问题：会话持久化 (Session Persistence)：当通过 SSH 连接到远程服务器时，如果网络中断或本地终端关闭，正在运行的命令会随之终止。tmux 允许用户“分离 (detach)”一个会话，即便断开 SSH 连接，会话中的程序依然在服务器后台运行。下次重新连接时，可以“连接 (attach)”回之前的会话，恢复工作状态。对于需要长时间运行的脚本、编译任务或服务，tmux 提供了强大的保障。多窗口/多窗格 (Multiple Windows&#x...

VAE (Variational Autoencoder) 详解

发表于2025-05-28|AI计算机视觉

VAE (Variational Autoencoder)，变分自编码器，是一种强大的生成模型 (Generative Model)，它结合了深度学习和概率图模型的思想。VAEs 不仅能够学习数据的压缩表示（即潜在空间），更重要的是，它能够通过建模数据的潜在分布来生成全新的、与训练数据相似但并非完全相同的数据。与标准自编码器 (Autoencoder, AE) 不同，VAE 强制其潜在空间具有连续且结构化的特性，使其非常适合用于数据生成、插值和抽象特征学习。核心思想：VAE 的核心在于其编码器不是将输入映射到一个固定的潜在向量，而是映射到一个潜在概率分布（通常是高斯分布）的参数（均值和方差）。通过从这个分布中采样得到潜在向量，并引入一个正则化项（KL 散度）来约束这个分布接近一个简单的先验分布（如标准正态分布），从而确保潜在空间的连续性和可生成性。一、为什么需要 VAEs？(从 Autoencoder 说起)要理解 VAE 的必要性，我们首先回顾一下标准的自编码器 (Autoencoder)。 1.1 标准自编码器 (Autoencoder, AE)自编码器是一种无监...

潜空间 (Latent Space) 详解

发表于2025-05-26|AI计算机视觉

潜空间 (Latent Space)，又称隐空间或潜在空间，是深度学习，尤其是生成模型中的一个核心概念。它是一个经过模型学习和压缩的、低维度的、连续的数学空间，用于表示原始高维数据（如图像、文本、音频）的内在结构和语义特征。数据点在潜空间中的位置编码了其核心属性，使得模型能够在此空间中进行高效的生成、插值和操控，而无需直接处理复杂的高维数据。核心思想：潜空间是数据的一种“抽象语言”或“概念地图”。它将高维、复杂的原始数据（如一张照片的几百万像素）压缩成一个低维的向量表示。在这个低维空间中，语义相似的数据点彼此靠近，且空间是连续的，微小的移动对应着数据在现实世界中语义上的平滑变化。一、为什么需要潜空间？处理现实世界中的数据（如图像、文本）面临以下挑战：高维度性 (High Dimensionality)：一张 512x512 像素的 RGB 图像包含 $512 \times 512 \times 3 \approx 78$ 万个像素值。直接在如此高维的空间中进行操作、生成或搜索是计算密集且效率低下的。数据稀疏性 (Data Sparsity)：在高维空间中，真实数...

LoRA (Low-Rank Adaptation) 模型详解

发表于2025-05-24|AI计算机视觉

LoRA (Low-Rank Adaptation of Large Language Models) 是一种参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) 技术，旨在大幅减少大型预训练模型（如大型语言模型 LLMs 和扩散模型 Diffusion Models）在下游任务上进行微调时所需的可训练参数数量和计算资源。它通过在模型原有权重矩阵旁边引入两个低秩矩阵进行增量更新，从而实现高效且高性能的微调，避免了对整个模型进行全量微调的巨大开销。核心思想：冻结预训练模型的原始权重，并向其注入少量可训练的低秩分解矩阵。在微调过程中，只训练这些新注入的低秩矩阵，而预训练模型的绝大部分参数保持不变。在推理时，这些低秩矩阵可以与原始权重合并，几乎不增加推理延迟。一、为什么需要 LoRA？随着深度学习模型规模的爆炸式增长，特别是大型语言模型 (LLMs) 和扩散模型 (Diffusion Models) 的参数量达到数十亿甚至数万亿，对其进行全量微调（即训练所有模型参数）带来了严峻的挑战：巨大的计算成本：全量微调一个数十亿参数的模型需...

Diffusion Models (扩散模型) 深度详解

发表于2025-05-22|AI计算机视觉

扩散模型 (Diffusion Models) 是一类新兴的生成模型 (Generative Models)，近年来在图像生成、音频合成、视频生成等领域取得了突破性的进展，特别是在高保真度图像生成方面展现出无与伦比的性能，超越了传统的 GANs (生成对抗网络) 和 VAEs (变分自编码器)。其核心思想是模仿物理学中的扩散过程，通过逐步添加噪声来破坏数据结构，然后学习如何逆转这个过程，从随机噪声中逐渐恢复出清晰的数据。核心思想：扩散模型将数据生成视为一个迭代的去噪过程。它包含两个核心阶段：前向扩散过程（加噪）和反向去噪过程（学习去噪以生成数据）。通过训练一个神经网络来预测并去除前向过程中添加的噪声，模型学会了如何从纯噪声中一步步“去噪”并生成符合真实数据分布的样本。一、为什么需要扩散模型？在扩散模型出现之前，主流的生成模型有：生成对抗网络 (GANs)：以其出色的图像生成质量而闻名。然而，GANs 的训练过程以对抗性方式进行，往往不稳定且难以收敛，存在模式崩溃 (mode collapse) 问题，即生成多样性不足。变分自编码器 (VAEs)：训练更稳定，但生...