Data Science

Data analysis, statistics, and data engineering

This Week's Best | Monthly Best | Guide | Trending

Top This Week

Ai Infrastructure

UMKC Announces New Master of Science in Artificial Intelligence

UMKC announces a new Master of Science in Artificial Intelligence program aimed at addressing workforce demand for AI expertise, set to l...

AI News - General · 4 min · 27 minutes ago

Llms

[2603.16629] MLLM-based Textual Explanations for Face Comparison

Abstract page for arXiv paper 2603.16629: MLLM-based Textual Explanations for Face Comparison

arXiv - AI · 4 min · 39 minutes ago

Machine Learning

[2603.14267] DiFlowDubber: Discrete Flow Matching for Automated Video Dubbing via Cross-Modal Alignment and Synchronization

Abstract page for arXiv paper 2603.14267: DiFlowDubber: Discrete Flow Matching for Automated Video Dubbing via Cross-Modal Alignment and ...

arXiv - AI · 4 min · 39 minutes ago

All Content

Llms

[2603.02789] OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Abstract page for arXiv paper 2603.02789: OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-S...

arXiv - AI · 3 min · 26 days ago

Machine Learning

[2603.02483] Geometric structures and deviations on James' symmetric positive-definite matrix bicone domain

Abstract page for arXiv paper 2603.02483: Geometric structures and deviations on James' symmetric positive-definite matrix bicone domain

arXiv - Machine Learning · 4 min · 26 days ago

Machine Learning

[2603.02475] Large-Scale Dataset and Benchmark for Skin Tone Classification in the Wild

Abstract page for arXiv paper 2603.02475: Large-Scale Dataset and Benchmark for Skin Tone Classification in the Wild

arXiv - Machine Learning · 4 min · 26 days ago

Machine Learning

[2603.02697] ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling

Abstract page for arXiv paper 2603.02697: ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling

arXiv - AI · 3 min · 26 days ago

Machine Learning

[2603.02368] RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

Abstract page for arXiv paper 2603.02368: RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

arXiv - Machine Learning · 3 min · 26 days ago

Machine Learning

[2603.02638] The Vienna 4G/5G Drive-Test Dataset

Abstract page for arXiv paper 2603.02638: The Vienna 4G/5G Drive-Test Dataset

arXiv - Machine Learning · 4 min · 26 days ago

Machine Learning

[2603.02245] LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Abstract page for arXiv paper 2603.02245: LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classif...

arXiv - Machine Learning · 3 min · 26 days ago

Machine Learning

[2603.03275] Learning Demographic-Conditioned Mobility Trajectories with Aggregate Supervision

Abstract page for arXiv paper 2603.03275: Learning Demographic-Conditioned Mobility Trajectories with Aggregate Supervision

arXiv - Machine Learning · 3 min · 26 days ago

Machine Learning

[2603.03230] SynthCharge: An Electric Vehicle Routing Instance Generator with Feasibility Screening to Enable Learning-Based Optimization and Benchmarking

Abstract page for arXiv paper 2603.03230: SynthCharge: An Electric Vehicle Routing Instance Generator with Feasibility Screening to Enabl...

arXiv - AI · 3 min · 26 days ago

Machine Learning

[2603.03207] I-CAM-UV: Integrating Causal Graphs over Non-Identical Variable Sets Using Causal Additive Models with Unobserved Variables

Abstract page for arXiv paper 2603.03207: I-CAM-UV: Integrating Causal Graphs over Non-Identical Variable Sets Using Causal Additive Mode...

arXiv - Machine Learning · 4 min · 26 days ago

Llms

[2603.03206] Understanding and Mitigating Dataset Corruption in LLM Steering

Abstract page for arXiv paper 2603.03206: Understanding and Mitigating Dataset Corruption in LLM Steering

arXiv - AI · 4 min · 26 days ago

Machine Learning

[2603.03172] Less Noise, Same Certificate: Retain Sensitivity for Unlearning

Abstract page for arXiv paper 2603.03172: Less Noise, Same Certificate: Retain Sensitivity for Unlearning

arXiv - Machine Learning · 4 min · 26 days ago

Machine Learning

[2603.02411] From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Precision and Compactness

Abstract page for arXiv paper 2603.02411: From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Preci...

arXiv - Machine Learning · 3 min · 26 days ago

Nlp

[2603.03056] Incremental Graph Construction Enables Robust Spectral Clustering of Texts

Abstract page for arXiv paper 2603.03056: Incremental Graph Construction Enables Robust Spectral Clustering of Texts

arXiv - Machine Learning · 3 min · 26 days ago

Machine Learning

[2603.02252] Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

Abstract page for arXiv paper 2603.02252: Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

arXiv - Machine Learning · 3 min · 26 days ago

Machine Learning

[2603.02935] Contextual Latent World Models for Offline Meta Reinforcement Learning

Abstract page for arXiv paper 2603.02935: Contextual Latent World Models for Offline Meta Reinforcement Learning

arXiv - Machine Learning · 3 min · 26 days ago

Llms

[2603.02840] Adapting Time Series Foundation Models through Data Mixtures

Abstract page for arXiv paper 2603.02840: Adapting Time Series Foundation Models through Data Mixtures

arXiv - Machine Learning · 4 min · 26 days ago

Ai Safety

[2603.02756] Rethinking Time Series Domain Generalization via Structure-Stratified Calibration

Abstract page for arXiv paper 2603.02756: Rethinking Time Series Domain Generalization via Structure-Stratified Calibration

arXiv - Machine Learning · 3 min · 26 days ago

Machine Learning

[2603.02212] GLEAN: Grounded Lightweight Evaluation Anchors for Contamination-Aware Tabular Reasoning

Abstract page for arXiv paper 2603.02212: GLEAN: Grounded Lightweight Evaluation Anchors for Contamination-Aware Tabular Reasoning

arXiv - AI · 3 min · 26 days ago

Llms

[2603.03072] TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Abstract page for arXiv paper 2603.03072: TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

arXiv - AI · 4 min · 26 days ago

Previous Page 18 Next

Stay updated with AI News

Get the latest news, tools, and insights delivered to your inbox.

Subscribe to Newsletter

Daily or weekly digest • Unsubscribe anytime

Data Science

Top This Week

UMKC Announces New Master of Science in Artificial Intelligence

[2603.16629] MLLM-based Textual Explanations for Face Comparison

[2603.14267] DiFlowDubber: Discrete Flow Matching for Automated Video Dubbing via Cross-Modal Alignment and Synchronization

All Content

[2603.02789] OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

[2603.02483] Geometric structures and deviations on James' symmetric positive-definite matrix bicone domain

[2603.02475] Large-Scale Dataset and Benchmark for Skin Tone Classification in the Wild

[2603.02697] ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling

[2603.02368] RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

[2603.02638] The Vienna 4G/5G Drive-Test Dataset

[2603.02245] LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

[2603.03275] Learning Demographic-Conditioned Mobility Trajectories with Aggregate Supervision

[2603.03230] SynthCharge: An Electric Vehicle Routing Instance Generator with Feasibility Screening to Enable Learning-Based Optimization and Benchmarking

[2603.03207] I-CAM-UV: Integrating Causal Graphs over Non-Identical Variable Sets Using Causal Additive Models with Unobserved Variables

[2603.03206] Understanding and Mitigating Dataset Corruption in LLM Steering

[2603.03172] Less Noise, Same Certificate: Retain Sensitivity for Unlearning

[2603.02411] From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Precision and Compactness

[2603.03056] Incremental Graph Construction Enables Robust Spectral Clustering of Texts

[2603.02252] Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

[2603.02935] Contextual Latent World Models for Offline Meta Reinforcement Learning

[2603.02840] Adapting Time Series Foundation Models through Data Mixtures

[2603.02756] Rethinking Time Series Domain Generalization via Structure-Stratified Calibration

[2603.02212] GLEAN: Grounded Lightweight Evaluation Anchors for Contamination-Aware Tabular Reasoning

[2603.03072] TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Related Topics

Stay updated with AI News