benchmark

Star

Here are 4,463 public repositories matching this topic...

devmirza-bot / frameworks-benchmark

Star

Simple benchmarking tool written in HTML, CSS and Javascript

react benchmark reactjs nextjs nextjs14

Updated Jun 12, 2024
JavaScript

onejune2018 / Awesome-LLM-Eval

Star

Awesome-LLM-Eval: a curated list of tools, datasets/benchmark, demos, leaderboard, papers, docs and models, mainly for Evaluation on LLMs. 一个由工具、基准/数据、演示、排行榜和大模型等组成的精选列表，主要面向基础大模型评测，旨在探求生成式AI的技术边界.

nlp benchmark machine-learning leaderboard evaluation dataset openai llama bert rag awsome-list gpt3 llm awsome-lists chatgpt large-language-model chatglm qwen llm-evaluation

Updated Jun 12, 2024

pytorch / benchmark

Star

TorchBench is a collection of open source benchmarks used to evaluate PyTorch performance.

benchmark pytorch

Updated Jun 12, 2024
Python

HausaHate is a benchmark dataset for Hausa hate speech detection task. it was extracted from West African Facebook pages and comprises 2,000 comments annotated according to a binary class (offensive and non-offensive) and hate speech targets (race, gender and none).

benchmark machine-learning natural-language-processing corpus dataset nlp-machine-learning offensive-language hate-speech low-resource-languages hausa-nlp

Updated Jun 12, 2024

THU-KEG / DICE

Star

DICE: Detecting In-distribution Data Contamination with LLM's Internal State

benchmark data-contamination sft llm gsm8k fine-tuning-llm

Updated Jun 12, 2024
Python

gentaiscool / miners

Star

MINERS ⛏️: The semantic retrieval benchmark for evaluating multilingual language models.

multilingual nlp benchmark machine-learning deep-learning retrieval ml transformers efficient miner classification generation language-model miners deep-learning-models sentence-transformers semantic-retrieval large-language-models llm

Updated Jun 12, 2024
Python

LLNL / benchpark

Star

An open collaborative repository for reproducible specifications of HPC benchmarks and cross site benchmarking environments

benchmark hpc

Updated Jun 12, 2024
Python

petabridge / NBench

Star

Performance benchmarking and testing framework for .NET applications 📈

benchmark performance dotnet garbage-collection nbench performance-test

Updated Jun 12, 2024
C#

qdrant / vector-db-benchmark

Sponsor

Star

Framework for benchmarking vector search engines

benchmark vector-search vector-database vector-search-engine

Updated Jun 11, 2024
Python

zhudotexe / fanoutqa

Sponsor

Star

Companion code for FanOutQA: Multi-Hop, Multi-Document Question Answering for Large Language Models (ACL 2024)

benchmark natural-language-processing large-language-models llms

Updated Jun 11, 2024
Python

embeddings-benchmark / mteb

Star

MTEB: Massive Text Embedding Benchmark

benchmark information-retrieval retrieval text-classification clustering sts semantic-search reranking text-embedding sgpt neural-search sentence-transformers sbert multilingual-nlp bitext-mining

Updated Jun 11, 2024
Python

JieyuZ2 / TaskMeAnything

Star

A task generation and model evaluation system.

benchmark evaluation foundation-models

Updated Jun 11, 2024
Python

poolifier / tatami-ng

Sponsor

Star

Cross JavaScript runtime benchmarking library

javascript benchmark node browser bun deno

Updated Jun 11, 2024
JavaScript

Psycoy / MixEval

Star

The official evaluation suite and dynamic data release for MixEval.

benchmark evaluation benchmarking-suite evaluation-framework benchmarking-framework foundation-models large-language-models large-language-model llm-inference llm-evaluation large-multimodal-models llm-evaluation-framework benchmark-mixture mixeval

Updated Jun 12, 2024
Python

aws-samples / foundation-model-benchmarking-tool

Star

Foundation model benchmarking tool. Run any model on Amazon SageMaker and benchmark for performance across instance type and serving stack options.

benchmarking benchmark bedrock sagemaker p4d foundation-models inferentia generative-ai llama2 llama3

Updated Jun 11, 2024
Jupyter Notebook

bigcode-project / bigcodebench

Star

BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions

benchmark program-synthesis code-generation tool-use instruction-following large-language-models chatgpt function-calling

Updated Jun 11, 2024
Python

DAFRAYAL / MICROSOFT-WINDOWS-Hardening-and-benchmark

Star

The most powerful MICROSOFT WINDOWS hardening and benchmark! Work in progress -- experimental. Best security database you will have "2024", "11" parent