ML & Data Science Skills

Machine Learning, MLOps, Data Pipelines, Analytics

Showing 57 skills in ML & Data Science

langchain-architecture

5.2k

Design LLM applications using the LangChain framework with agents, memory, and tool integration patterns.

ml-dataclaudecodex

View Details

ml-pipeline-workflow

5.2k

Build end-to-end MLOps pipelines from data preparation through model training, validation, and production deployment.

ml-dataclaudecodex

View Details

data-storytelling

5.2k

Transform data into compelling narratives using visualization, context, and persuasive structure.

ml-dataclaudecodex

View Details

pyhealth

2.8k

Comprehensive healthcare AI toolkit for developing, testing, and deploying machine learning models with clinical data. This skill should be used when working with electronic health records (EHR), clinical prediction tasks (mortality, readmission, drug recommendation), medical coding systems (ICD, ND

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

biomni

2.8k

Autonomous biomedical AI agent framework for executing complex research tasks across genomics, drug discovery, molecular biology, and clinical analysis. Use this skill when conducting multi-step biomedical research including CRISPR screening design, single-cell RNA-seq analysis, ADMET prediction, GW

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

scientific-schematics

2.8k

Create publication-quality scientific diagrams using Nano Banana Pro AI with smart iterative refinement. Uses Gemini 3 Pro for quality review. Only regenerates if quality is below threshold for your document type. Specialized in neural network architectures, system diagrams, flowcharts, biological p

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

aeon

2.8k

This skill should be used for time series machine learning tasks including classification, regression, clustering, forecasting, anomaly detection, segmentation, and similarity search. Use when working with temporal data, sequential patterns, or time-indexed observations requiring specialized algorit

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

alphafold-database

2.8k

Access AlphaFold's 200M+ AI-predicted protein structures. Retrieve structures by UniProt ID, download PDB/mmCIF files, analyze confidence metrics (pLDDT, PAE), for drug discovery and structural biology.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

anndata

2.8k

This skill should be used when working with annotated data matrices in Python, particularly for single-cell genomics analysis, managing experimental measurements with metadata, or handling large-scale biological datasets. Use when tasks involve AnnData objects, h5ad files, single-cell RNA-seq data,

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

biopython

2.8k

Primary Python toolkit for molecular biology. Preferred for Python-based PubMed/NCBI queries (Bio.Entrez), sequence manipulation, file parsing (FASTA, GenBank, FASTQ, PDB), advanced BLAST workflows, structures, phylogenetics. For quick BLAST, use gget. For direct REST API, use pubmed-database.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

biorxiv-database

2.8k

Efficient database search tool for bioRxiv preprint server. Use this skill when searching for life sciences preprints by keywords, authors, date ranges, or categories, retrieving paper metadata, downloading PDFs, or conducting literature reviews.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

bioservices

2.8k

Primary Python tool for 40+ bioinformatics services. Preferred for multi-database workflows: UniProt, KEGG, ChEMBL, PubChem, Reactome, QuickGO. Unified API for queries, ID mapping, pathway analysis. For direct REST control, use individual database skills (uniprot-database, kegg-database).

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

brenda-database

2.8k

Access BRENDA enzyme database via SOAP API. Retrieve kinetic parameters (Km, kcat), reaction equations, organism data, and substrate-specific enzyme information for biochemical research and metabolic pathway analysis.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

chembl-database

2.8k

Query ChEMBL's bioactive molecules and drug discovery data. Search compounds by structure/properties, retrieve bioactivity data (IC50, Ki), find inhibitors, perform SAR studies, for medicinal chemistry.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

clinicaltrials-database

2.8k

Query ClinicalTrials.gov via API v2. Search trials by condition, drug, location, status, or phase. Retrieve trial details by NCT ID, export data, for clinical research and patient matching.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

clinpgx-database

2.8k

Access ClinPGx pharmacogenomics data (successor to PharmGKB). Query gene-drug interactions, CPIC guidelines, allele functions, for precision medicine and genotype-guided dosing decisions.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

clinvar-database

2.8k

Query NCBI ClinVar for variant clinical significance. Search by gene/position, interpret pathogenicity classifications, access via E-utilities API or FTP, annotate VCFs, for genomic medicine.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

cosmic-database

2.8k

Access COSMIC cancer mutation database. Query somatic mutations, Cancer Gene Census, mutational signatures, gene fusions, for cancer research and precision oncology. Requires authentication.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

datacommons-client

2.8k

Work with Data Commons, a platform providing programmatic access to public statistical data from global sources. Use this skill when working with demographic data, economic indicators, health statistics, environmental data, or any public datasets available through Data Commons. Applicable for queryi

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

datamol

2.8k

Pythonic wrapper around RDKit with simplified interface and sensible defaults. Preferred for standard drug discovery: SMILES parsing, standardization, descriptors, fingerprints, clustering, 3D conformers, parallel processing. Returns native rdkit.Chem.Mol objects. For advanced control or custom para

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

deepchem

2.8k

Molecular machine learning toolkit. Property prediction (ADMET, toxicity), GNNs (GCN, MPNN), MoleculeNet benchmarks, pretrained models, featurization, for drug discovery ML.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

drugbank-database

2.8k

Access and analyze comprehensive drug information from the DrugBank database including drug properties, interactions, targets, pathways, chemical structures, and pharmacology data. This skill should be used when working with pharmaceutical data, drug discovery research, pharmacology studies, drug-dr

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

ena-database

2.8k

Access European Nucleotide Archive via API/FTP. Retrieve DNA/RNA sequences, raw reads (FASTQ), genome assemblies by accession, for genomics and bioinformatics pipelines. Supports multiple formats.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

ensembl-database

2.8k

Query Ensembl genome database REST API for 250+ species. Gene lookups, sequence retrieval, variant analysis, comparative genomics, orthologs, VEP predictions, for genomic research.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

exploratory-data-analysis

2.8k

Perform comprehensive exploratory data analysis on scientific data files across 200+ file formats. This skill should be used when analyzing any scientific data file to understand its structure, content, quality, and characteristics. Automatically detects file type and generates detailed markdown rep

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

fda-database

2.8k

Query openFDA API for drugs, devices, adverse events, recalls, regulatory submissions (510k, PMA), substance identification (UNII), for FDA regulatory data analysis and safety research.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

gene-database

2.8k

Query NCBI Gene via E-utilities/Datasets API. Search by symbol/ID, retrieve gene info (RefSeqs, GO, locations, phenotypes), batch lookups, for gene annotation and functional analysis.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

geo-database

2.8k

Access NCBI GEO for gene expression/genomics data. Search/download microarray and RNA-seq datasets (GSE, GSM, GPL), retrieve SOFT/Matrix files, for transcriptomics and expression analysis.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

gtars

2.8k

High-performance toolkit for genomic interval analysis in Rust with Python bindings. Use when working with genomic regions, BED files, coverage tracks, overlap detection, tokenization for ML models, or fragment analysis in computational genomics and machine learning applications.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

gwas-database

2.8k

Query NHGRI-EBI GWAS Catalog for SNP-trait associations. Search variants by rs ID, disease/trait, gene, retrieve p-values and summary statistics, for genetic epidemiology and polygenic risk scores.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

hmdb-database

2.8k

Access Human Metabolome Database (220K+ metabolites). Search by name/ID/structure, retrieve chemical properties, biomarker data, NMR/MS spectra, pathways, for metabolomics and identification.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

kegg-database

2.8k

Direct REST API access to KEGG (academic use only). Pathway analysis, gene-pathway mapping, metabolic pathways, drug interactions, ID conversion. For Python workflows with multiple databases, prefer bioservices. Use this for direct HTTP/REST work or KEGG-specific control.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

latchbio-integration

2.8k

Latch platform for bioinformatics workflows. Build pipelines with Latch SDK, @workflow/@task decorators, deploy serverless workflows, LatchFile/LatchDir, Nextflow/Snakemake integration.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

literature-review

2.8k

Conduct comprehensive, systematic literature reviews using multiple academic databases (PubMed, arXiv, bioRxiv, Semantic Scholar, etc.). This skill should be used when conducting systematic literature reviews, meta-analyses, research synthesis, or comprehensive literature searches across biomedical,

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

metabolomics-workbench-database

2.8k

Access NIH Metabolomics Workbench via REST API (4,200+ studies). Query metabolites, RefMet nomenclature, MS/NMR data, m/z searches, study metadata, for metabolomics and biomarker discovery.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

openalex-database

2.8k

Query and analyze scholarly literature using the OpenAlex database. This skill should be used when searching for academic papers, analyzing research trends, finding works by authors or institutions, tracking citations, discovering open access publications, or conducting bibliometric analysis across

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

opentargets-database

2.8k

Query Open Targets Platform for target-disease associations, drug target discovery, tractability/safety data, genetics/omics evidence, known drugs, for therapeutic target identification.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

pdb-database

2.8k

Access RCSB PDB for 3D protein/nucleic acid structures. Search by text/sequence/structure, download coordinates (PDB/mmCIF), retrieve metadata, for structural biology and drug discovery.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

pennylane

2.8k

Cross-platform Python library for quantum computing, quantum machine learning, and quantum chemistry. Enables building and training quantum circuits with automatic differentiation, seamless integration with PyTorch/JAX/TensorFlow, and device-independent execution across simulators and quantum hardwa

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

pubchem-database

2.8k

Query PubChem via PUG-REST API/PubChemPy (110M+ compounds). Search by name/CID/SMILES, retrieve properties, similarity/substructure searches, bioactivity, for cheminformatics.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

pubmed-database

2.8k

Direct REST API access to PubMed. Advanced Boolean/MeSH queries, E-utilities API, batch processing, citation management. For Python workflows, prefer biopython (Bio.Entrez). Use this for direct HTTP/REST work or custom API implementations.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

pytorch-lightning

2.8k

Deep learning framework (PyTorch Lightning). Organize PyTorch code into LightningModules, configure Trainers for multi-GPU/TPU, implement data pipelines, callbacks, logging (W&B, TensorBoard), distributed training (DDP, FSDP, DeepSpeed), for scalable neural network training.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

reactome-database

2.8k

Query Reactome REST API for pathway analysis, enrichment, gene-pathway mapping, disease pathways, molecular interactions, expression analysis, for systems biology studies.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

scientific-brainstorming

2.8k

Research ideation partner. Generate hypotheses, explore interdisciplinary connections, challenge assumptions, develop methodologies, identify research gaps, for creative scientific problem-solving.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

scientific-critical-thinking

2.8k

Evaluate research rigor. Assess methodology, experimental design, statistical validity, biases, confounding, evidence quality (GRADE, Cochrane ROB), for critical analysis of scientific claims.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

scientific-slides

2.8k

Build slide decks and presentations for research talks. Use this for making PowerPoint slides, conference presentations, seminar talks, research presentations, thesis defense slides, or any scientific talk. Provides slide structure, design templates, timing guidance, and visual validation. Works wit

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

scientific-visualization

2.8k

Create publication figures with matplotlib/seaborn/plotly. Multi-panel layouts, error bars, significance markers, colorblind-safe, export PDF/EPS/TIFF, for journal-ready scientific plots.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

scientific-writing

2.8k

Core skill for the deep research and writing tool. Write scientific manuscripts in full paragraphs (never bullet points). Use two-stage process: (1) create section outlines with key points using research-lookup, (2) convert to flowing prose. IMRAD structure, citations (APA/AMA/Vancouver), figures/ta

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

scikit-bio

2.8k

Biological data toolkit. Sequence analysis, alignments, phylogenetic trees, diversity metrics (alpha/beta, UniFrac), ordination (PCoA), PERMANOVA, FASTA/Newick I/O, for microbiome analysis.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

scikit-learn

2.8k

Machine learning in Python with scikit-learn. Use when working with supervised learning (classification, regression), unsupervised learning (clustering, dimensionality reduction), model evaluation, hyperparameter tuning, preprocessing, or building ML pipelines. Provides comprehensive reference docum

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

shap

2.8k

Model interpretability and explainability using SHAP (SHapley Additive exPlanations). Use this skill when explaining machine learning model predictions, computing feature importance, generating SHAP plots (waterfall, beeswarm, bar, scatter, force, heatmap), debugging models, analyzing model bias or

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

string-database

2.8k

Query STRING API for protein-protein interactions (59M proteins, 20B interactions). Network analysis, GO/KEGG enrichment, interaction discovery, 5000+ species, for systems biology.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

torchdrug

2.8k

Graph-based drug discovery toolkit. Molecular property prediction (ADMET), protein modeling, knowledge graph reasoning, molecular generation, retrosynthesis, GNNs (GIN, GAT, SchNet), 40+ datasets, for PyTorch-based ML on molecules, proteins, and biomedical graphs.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

uniprot-database

2.8k

Direct REST API access to UniProt. Protein searches, FASTA retrieval, ID mapping, Swiss-Prot/TrEMBL. For Python workflows with multiple databases, prefer bioservices (unified interface to 40+ services). Use this for direct HTTP/REST work or UniProt-specific control.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

uspto-database

2.8k

Access USPTO APIs for patent/trademark searches, examination history (PEDS), assignments, citations, office actions, TSDR, for IP analysis and prior art searches.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

vaex

2.8k

Use this skill for processing and analyzing large tabular datasets (billions of rows) that exceed available RAM. Vaex excels at out-of-core DataFrame operations, lazy evaluation, fast aggregations, efficient visualization of big data, and machine learning on large datasets. Apply when users need to

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details

zinc-database

2.8k

Access ZINC (230M+ purchasable compounds). Search by ZINC ID/SMILES, similarity searches, 3D-ready structures for docking, analog discovery, for virtual screening and drug discovery.

ml-dataclaude

From:K-Dense-AI/claude-scientific-skillsspecialized

View Details