🔗 LangChain RAG Cheatsheet

pip install langchain langchain-openai langchain-text-splitters langchain-chroma langchain-community chromadb

📄 Load→✂️ Split→🧮 Embed→🗄️ Store→🔍 Retrieve→📝 Prompt→🤖 LLM→💬 Answer

📦 INSTALL & SETUP

terminal

pip install langchain langchain-openai \

langchain-text-splitters langchain-chroma \

langchain-community chromadb

imports

import os

os.environ["OPENAI_API_KEY"] = "sk-..."

from langchain_openai import ChatOpenAI, OpenAIEmbeddings

from langchain_text_splitters import RecursiveCharacterTextSplitter

from langchain_chroma import Chroma

from langchain_core.prompts import ChatPromptTemplate

from langchain_core.output_parsers import StrOutputParser

from langchain_core.runnables import RunnablePassthrough

from langchain_core.messages import HumanMessage, SystemMessage

from langchain_community.document_loaders import TextLoader

⚠Old paths like langchain.schema, langchain.text_splitter are deprecated since v1.0

📄 DOCUMENT LOADERS

langchain_community.document_loaders

from langchain_community.document_loaders import TextLoader

loader = TextLoader("data/manual.txt", encoding="utf-8")

docs = loader.load() # -> List[Document]

All Options

TextLoaderPlain .txt files

PyPDFLoaderPDF files — one Document per page

UnstructuredPDFLoaderComplex PDFs with tables / images

CSVLoaderCSV rows — one Document per row

JSONLoaderJSON with jq-style content extraction

WebBaseLoaderScrape a URL (requires bs4)

DirectoryLoaderGlob a folder, auto-detect by extension

Docx2txtLoaderMicrosoft Word .docx files

WikipediaLoaderWikipedia articles by title

✂️ TEXT SPLITTERS

langchain_text_splitters

from langchain_text_splitters import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(

chunk_size=500,

chunk_overlap=50,

separators=["\n\n", "\n", ". ", " ", ""]

)

chunks = splitter.split_documents(docs)

All Options

RecursiveCharacterTextSplitterDEFAULT — paragraph, sentence, word

CharacterTextSplitterSimple fixed-size by one delimiter

TokenTextSplitterSplit by exact token count (tiktoken)

MarkdownHeaderTextSplitterSplit .md by # headings

HTMLHeaderTextSplitterSplit HTML by h1-h4 tags

PythonCodeTextSplitterSplit by class / function

RecursiveJsonSplitterSplit large JSON objects

SemanticChunkerEmbedding-based boundaries (expensive)

💡Chunk sizes: 200-500 (FAQ), 500-1000 (balanced), 1000-2000 (coarse). Overlap: 10-20% of chunk_size.

🧮 EMBEDDINGS

langchain_openai

from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(

model="text-embedding-3-small" # 1536 dims

# dimensions=512, # optional dimensionality reduction

)

Model	Dims	$/1M tok
text-embedding-3-small	1536	$0.02
text-embedding-3-large	3072	$0.13
text-embedding-ada-002	1536	$0.10 (legacy)
HuggingFace (local)	varies	Free
Cohere embed-v3	1024	$0.10

🗄️ VECTOR STORES

langchain_chroma

from langchain_chroma import Chroma

vectorstore = Chroma.from_documents(

documents=chunks,

embedding=embeddings,

persist_directory="./chroma_db",

collection_name="my_collection",

collection_metadata={"hnsw:space": "cosine"}

)

All Options

ChromaLocal dev, easy setup, persistent

FAISSUltra-fast, no server, large datasets

PineconeManaged cloud, auto-scaling

QdrantCloud / self-hosted, rich filtering

WeaviateHybrid search built-in

PGVectorPostgres extension — use existing PG

InMemoryVectorStoreBuilt into langchain-core, testing only

💡Distance metrics: cosine (default, best for normalised embeddings), l2 (euclidean), ip (inner product)

🔍 RETRIEVERS

retriever = vectorstore.as_retriever(

search_type="similarity", # or "mmr"

search_kwargs={"k": 5}

)

docs = retriever.invoke("my question")

Search Types

similarityPure cosine similarity (default)

mmrMaximal Marginal Relevance — relevance + diversity

similarity_score_thresholdOnly return docs above a score cutoff

Advanced Retrievers

BM25RetrieverKeyword-based, no embeddings needed

EnsembleRetrieverCombine BM25 + vector (hybrid)

MultiQueryRetrieverLLM generates query variants

ContextualCompressionRetrieverLLM re-ranks / filters results

SelfQueryRetrieverAuto-extracts metadata filters from query

🤖 LLM (ChatOpenAI)

langchain_openai

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(

model="gpt-4o-mini",

temperature=0.2,

# max_tokens=500,

# streaming=True,

)

Model	$/1M in	Best for
gpt-4o-mini	$0.15	Fast, cheap RAG
gpt-4o	$2.50	Complex reasoning
gpt-3.5-turbo	$0.50	Deprecated

⛓️ RAG CHAIN (LCEL)

the modern way

from langchain_core.prompts import ChatPromptTemplate

from langchain_core.output_parsers import StrOutputParser

from langchain_core.runnables import (

RunnablePassthrough, RunnableParallel

)

prompt = ChatPromptTemplate.from_messages([

("system", "Answer from context only.\n{context}"),

("human", "{question}"),

])

def format_docs(docs):

return "\n\n".join(d.page_content for d in docs)

# The RAG chain

rag_chain = (

RunnableParallel(

context=retriever | format_docs,

question=RunnablePassthrough(),

)

| prompt

| llm

| StrOutputParser()

)

# Use it

answer = rag_chain.invoke("my question")

# Stream it

for chunk in rag_chain.stream("my question"):

print(chunk, end="", flush=True)

⚠LLMChain, ConversationalRetrievalChain, AgentExecutor are all deprecated. Use LCEL pipes.

⚡ QUICK REFERENCE

Invoke / Stream / Batch

chain.invoke("question") # single

chain.stream("question") # token-by-token

chain.batch(["q1", "q2"]) # parallel

await chain.ainvoke("question") # async

Reload Existing Vector Store

vectorstore = Chroma(

persist_directory="./chroma_db",

embedding_function=embeddings,

collection_name="my_collection"

)

Direct LLM Messages

from langchain_core.messages import (

HumanMessage, SystemMessage, AIMessage

)

response = llm.invoke([

SystemMessage(content="You are helpful."),

HumanMessage(content="Hello!"),

])

LangChain v1.x · LCEL Pipes · langchain-openai · langchain-chroma · 2026