Matchms — Spectral Matching & Metabolite Identification

Overview

Matchms is a Python library for mass spectrometry data processing focused on spectral similarity calculation and compound identification. It provides multi-format I/O, 50+ spectrum filters for metadata harmonization and peak processing, 8 similarity scoring functions, and a pipeline framework for reproducible analytical workflows.

When to Use

Identifying unknown metabolites by matching MS/MS spectra against reference libraries
Computing spectral similarity scores (cosine, modified cosine, fingerprint-based)
Processing and standardizing mass spectral data from multiple formats (mzML, MGF, MSP, JSON)
Building reproducible spectral processing pipelines for quality control
Harmonizing metadata across spectral databases (compound names, SMILES, InChI, adducts)
Large-scale spectral library comparisons and duplicate detection
For full LC-MS/MS proteomics workflows (feature detection, protein ID), use pyopenms instead
For chemical structure similarity without mass spectra, use rdkit fingerprint comparison

matchms-spectral-matching

Matchms — Spectral Matching & Metabolite Identification

Overview

When to Use

Prerequisites

More from jaechang-hits/sciagent-skills

scientific-brainstorming

snakemake-workflow-engine

esm-protein-language-model

biopython-sequence-analysis

shap-model-explainability

archs4-database