Data Science

Data analysis, statistics, and data engineering

This Week's Best | Monthly Best | Guide | Trending

Top This Week

Llms

[P] I built an autonomous ML agent that runs experiments on tabular data indefinitely - inspired by Karpathy's AutoResearch

Inspired by Andrej Karpathy's AutoResearch, I built a system where Claude Code acts as an autonomous ML researcher on tabular binary clas...

Reddit - Machine Learning · 1 min · about 1 hour ago

Machine Learning

[D] Data curation and targeted replacement as a pre-training alignment and controllability method

Hi, r/MachineLearning: has much research been done in large-scale training scenarios where undesirable data has been replaced before trai...

Reddit - Machine Learning · 1 min · about 1 hour ago

Machine Learning

[P] I tested Meta’s brain-response model on posts. It predicted the Elon one almost perfectly.

I built an experimental UI and visualization layer around Meta’s open brain-response model just to see whether this stuff actually works ...

Reddit - Machine Learning · 1 min · about 5 hours ago

All Content

Machine Learning

[2603.05327] FairFinGAN: Fairness-aware Synthetic Financial Data Generation

Abstract page for arXiv paper 2603.05327: FairFinGAN: Fairness-aware Synthetic Financial Data Generation

arXiv - Machine Learning · 3 min · 24 days ago

Machine Learning

[2603.05263] A Behaviour-Aware Federated Forecasting Framework for Distributed Stand-Alone Wind Turbines

Abstract page for arXiv paper 2603.05263: A Behaviour-Aware Federated Forecasting Framework for Distributed Stand-Alone Wind Turbines

arXiv - Machine Learning · 3 min · 24 days ago

Data Science

[2603.05267] Beyond Word Error Rate: Auditing the Diversity Tax in Speech Recognition through Dataset Cartography

Abstract page for arXiv paper 2603.05267: Beyond Word Error Rate: Auditing the Diversity Tax in Speech Recognition through Dataset Cartog...

arXiv - Machine Learning · 3 min · 24 days ago

Machine Learning

[2603.04955] Uncertainty-aware Blood Glucose Prediction from Continuous Glucose Monitoring Data

Abstract page for arXiv paper 2603.04955: Uncertainty-aware Blood Glucose Prediction from Continuous Glucose Monitoring Data

arXiv - Machine Learning · 3 min · 24 days ago

Llms

[2603.04692] Engineering Regression Without Real-Data Training: Domain Adaptation for Tabular Foundation Models Using Multi-Dataset Embeddings

Abstract page for arXiv paper 2603.04692: Engineering Regression Without Real-Data Training: Domain Adaptation for Tabular Foundation Mod...

arXiv - Machine Learning · 4 min · 24 days ago

Llms

[2603.04606] PDE foundation model-accelerated inverse estimation of system parameters in inertial confinement fusion

Abstract page for arXiv paper 2603.04606: PDE foundation model-accelerated inverse estimation of system parameters in inertial confinemen...

arXiv - Machine Learning · 4 min · 24 days ago

Ai Safety

[2603.04595] A Late-Fusion Multimodal AI Framework for Privacy-Preserving Deduplication in National Healthcare Data Environments

Abstract page for arXiv paper 2603.04595: A Late-Fusion Multimodal AI Framework for Privacy-Preserving Deduplication in National Healthca...

arXiv - Machine Learning · 4 min · 24 days ago

Machine Learning

[2603.04553] Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling

Abstract page for arXiv paper 2603.04553: Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling

arXiv - Machine Learning · 3 min · 24 days ago

Llms

[2603.04478] Standing on the Shoulders of Giants: Rethinking EEG Foundation Model Pretraining via Multi-Teacher Distillation

Abstract page for arXiv paper 2603.04478: Standing on the Shoulders of Giants: Rethinking EEG Foundation Model Pretraining via Multi-Teac...

arXiv - Machine Learning · 4 min · 24 days ago

Data Science

[2512.03973] Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning

Abstract page for arXiv paper 2512.03973: Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning

arXiv - Machine Learning · 3 min · 24 days ago

Data Science

[2510.03160] SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

Abstract page for arXiv paper 2510.03160: SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

arXiv - AI · 4 min · 24 days ago

Llms

[2510.00507] Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Abstract page for arXiv paper 2510.00507: Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

arXiv - AI · 4 min · 24 days ago

Data Science

[2506.08618] HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Abstract page for arXiv paper 2506.08618: HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitia...

arXiv - Machine Learning · 4 min · 24 days ago

Llms

[2503.07928] The StudyChat Dataset: Analyzing Student Dialogues With ChatGPT in an Artificial Intelligence Course

Abstract page for arXiv paper 2503.07928: The StudyChat Dataset: Analyzing Student Dialogues With ChatGPT in an Artificial Intelligence C...

arXiv - AI · 4 min · 24 days ago

Ai Infrastructure

[2603.05314] PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration

Abstract page for arXiv paper 2603.05314: PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration

arXiv - AI · 3 min · 24 days ago

Machine Learning

[2603.05212] Early Warning of Intraoperative Adverse Events via Transformer-Driven Multi-Label Learning

Abstract page for arXiv paper 2603.05212: Early Warning of Intraoperative Adverse Events via Transformer-Driven Multi-Label Learning

arXiv - Machine Learning · 4 min · 24 days ago

Data Science

[2603.05171] Guidelines for the Annotation and Visualization of Legal Argumentation Structures in Chinese Judicial Decisions

Abstract page for arXiv paper 2603.05171: Guidelines for the Annotation and Visualization of Legal Argumentation Structures in Chinese Ju...

arXiv - AI · 4 min · 24 days ago

Ai Safety

[2603.05149] Federated Causal Discovery Across Heterogeneous Datasets under Latent Confounding

Abstract page for arXiv paper 2603.05149: Federated Causal Discovery Across Heterogeneous Datasets under Latent Confounding

arXiv - Machine Learning · 4 min · 24 days ago

Machine Learning

[2603.05114] UniPAR: A Unified Framework for Pedestrian Attribute Recognition

Abstract page for arXiv paper 2603.05114: UniPAR: A Unified Framework for Pedestrian Attribute Recognition

arXiv - AI · 4 min · 24 days ago

Ai Infrastructure

[2603.05099] ARC-TGI: Human-Validated Task Generators with Reasoning Chain Templates for ARC-AGI

Abstract page for arXiv paper 2603.05099: ARC-TGI: Human-Validated Task Generators with Reasoning Chain Templates for ARC-AGI

arXiv - Machine Learning · 4 min · 24 days ago

Previous Page 12 Next

Stay updated with AI News

Get the latest news, tools, and insights delivered to your inbox.

Subscribe to Newsletter

Daily or weekly digest • Unsubscribe anytime

Data Science

Top This Week

[P] I built an autonomous ML agent that runs experiments on tabular data indefinitely - inspired by Karpathy's AutoResearch

[D] Data curation and targeted replacement as a pre-training alignment and controllability method

[P] I tested Meta’s brain-response model on posts. It predicted the Elon one almost perfectly.

All Content

[2603.05327] FairFinGAN: Fairness-aware Synthetic Financial Data Generation

[2603.05263] A Behaviour-Aware Federated Forecasting Framework for Distributed Stand-Alone Wind Turbines

[2603.05267] Beyond Word Error Rate: Auditing the Diversity Tax in Speech Recognition through Dataset Cartography

[2603.04955] Uncertainty-aware Blood Glucose Prediction from Continuous Glucose Monitoring Data

[2603.04692] Engineering Regression Without Real-Data Training: Domain Adaptation for Tabular Foundation Models Using Multi-Dataset Embeddings

[2603.04606] PDE foundation model-accelerated inverse estimation of system parameters in inertial confinement fusion

[2603.04595] A Late-Fusion Multimodal AI Framework for Privacy-Preserving Deduplication in National Healthcare Data Environments

[2603.04553] Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling

[2603.04478] Standing on the Shoulders of Giants: Rethinking EEG Foundation Model Pretraining via Multi-Teacher Distillation

[2512.03973] Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning

[2510.03160] SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

[2510.00507] Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

[2506.08618] HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

[2503.07928] The StudyChat Dataset: Analyzing Student Dialogues With ChatGPT in an Artificial Intelligence Course

[2603.05314] PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration

[2603.05212] Early Warning of Intraoperative Adverse Events via Transformer-Driven Multi-Label Learning

[2603.05171] Guidelines for the Annotation and Visualization of Legal Argumentation Structures in Chinese Judicial Decisions

[2603.05149] Federated Causal Discovery Across Heterogeneous Datasets under Latent Confounding

[2603.05114] UniPAR: A Unified Framework for Pedestrian Attribute Recognition

[2603.05099] ARC-TGI: Human-Validated Task Generators with Reasoning Chain Templates for ARC-AGI

Related Topics

Stay updated with AI News