AI Safety & Ethics

Alignment, bias, regulation, and responsible AI

This Week's Best | Monthly Best | Guide | Trending

Top This Week

Machine Learning

[2603.14267] DiFlowDubber: Discrete Flow Matching for Automated Video Dubbing via Cross-Modal Alignment and Synchronization

Abstract page for arXiv paper 2603.14267: DiFlowDubber: Discrete Flow Matching for Automated Video Dubbing via Cross-Modal Alignment and ...

arXiv - AI · 4 min · about 7 hours ago

Llms

[2601.22440] AI and My Values: User Perceptions of LLMs' Ability to Extract, Embody, and Explain Human Values from Casual Conversations

Abstract page for arXiv paper 2601.22440: AI and My Values: User Perceptions of LLMs' Ability to Extract, Embody, and Explain Human Value...

arXiv - AI · 4 min · about 7 hours ago

Llms

[2601.13622] CARPE: Context-Aware Image Representation Prioritization via Ensemble for Large Vision-Language Models

Abstract page for arXiv paper 2601.13622: CARPE: Context-Aware Image Representation Prioritization via Ensemble for Large Vision-Language...

arXiv - AI · 3 min · about 7 hours ago

All Content

Llms

[2511.00177] Can SAEs reveal and mitigate racial biases of LLMs in healthcare?

Abstract page for arXiv paper 2511.00177: Can SAEs reveal and mitigate racial biases of LLMs in healthcare?

arXiv - Machine Learning · 4 min · 27 days ago

Llms

[2510.21910] Adversarial Déjà Vu: Jailbreak Dictionary Learning for Stronger Generalization to Unseen Attacks

Abstract page for arXiv paper 2510.21910: Adversarial Déjà Vu: Jailbreak Dictionary Learning for Stronger Generalization to Unseen Attacks

arXiv - Machine Learning · 4 min · 27 days ago

Machine Learning

[2510.18808] Does Feedback Alignment Work at Biological Timescales?

Abstract page for arXiv paper 2510.18808: Does Feedback Alignment Work at Biological Timescales?

arXiv - Machine Learning · 3 min · 27 days ago

Ai Safety

[2510.18299] Physics-Informed Parametric Bandits for Beam Alignment in mmWave Communications

Abstract page for arXiv paper 2510.18299: Physics-Informed Parametric Bandits for Beam Alignment in mmWave Communications

arXiv - Machine Learning · 4 min · 27 days ago

Llms

[2510.07940] TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

Abstract page for arXiv paper 2510.07940: TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

arXiv - Machine Learning · 4 min · 27 days ago

Machine Learning

[2510.04727] Directional Sheaf Hypergraph Networks: Unifying Learning on Directed and Undirected Hypergraphs

Abstract page for arXiv paper 2510.04727: Directional Sheaf Hypergraph Networks: Unifying Learning on Directed and Undirected Hypergraphs

arXiv - Machine Learning · 4 min · 27 days ago

Llms

[2509.22134] Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding

Abstract page for arXiv paper 2509.22134: Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding

arXiv - AI · 4 min · 27 days ago

Llms

[2508.07697] Semantic-Enhanced Time-Series Forecasting via Large Language Models

Abstract page for arXiv paper 2508.07697: Semantic-Enhanced Time-Series Forecasting via Large Language Models

arXiv - Machine Learning · 4 min · 27 days ago

Llms

[2508.07638] Data Selection for LLM Alignment Using Fine-Grained Preferences

Abstract page for arXiv paper 2508.07638: Data Selection for LLM Alignment Using Fine-Grained Preferences

arXiv - Machine Learning · 4 min · 27 days ago

Llms

[2509.15888] Distribution-Aligned Decoding for Efficient LLM Task Adaptation

Abstract page for arXiv paper 2509.15888: Distribution-Aligned Decoding for Efficient LLM Task Adaptation

arXiv - AI · 4 min · 27 days ago

Machine Learning

[2509.11128] ERIS: Evolutionary Real-world Interference Scheme for Jailbreaking Audio Large Models

Abstract page for arXiv paper 2509.11128: ERIS: Evolutionary Real-world Interference Scheme for Jailbreaking Audio Large Models

arXiv - AI · 3 min · 27 days ago

Nlp

[2506.19558] Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

Abstract page for arXiv paper 2506.19558: Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

arXiv - Machine Learning · 4 min · 27 days ago

Llms

[2508.11999] MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Abstract page for arXiv paper 2508.11999: MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understan...

arXiv - Machine Learning · 4 min · 27 days ago

Machine Learning

[2506.07459] ProteinZero: Self-Improving Protein Generation via Online Reinforcement Learning

Abstract page for arXiv paper 2506.07459: ProteinZero: Self-Improving Protein Generation via Online Reinforcement Learning

arXiv - Machine Learning · 4 min · 27 days ago

Machine Learning

[2506.02630] Hyperbolic Aware Minimization: Implicit Bias for Sparsity

Abstract page for arXiv paper 2506.02630: Hyperbolic Aware Minimization: Implicit Bias for Sparsity

arXiv - Machine Learning · 3 min · 27 days ago

Machine Learning

[2506.24108] Navigating with Annealing Guidance Scale in Diffusion Space

Abstract page for arXiv paper 2506.24108: Navigating with Annealing Guidance Scale in Diffusion Space

arXiv - Machine Learning · 4 min · 27 days ago

Ai Safety

[2505.21366] PLANETALIGN: A Comprehensive Python Library for Benchmarking Network Alignment

Abstract page for arXiv paper 2505.21366: PLANETALIGN: A Comprehensive Python Library for Benchmarking Network Alignment

arXiv - Machine Learning · 4 min · 27 days ago

Machine Learning

[2505.16017] GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

Abstract page for arXiv paper 2505.16017: GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

arXiv - Machine Learning · 3 min · 27 days ago

Llms

[2505.17568] JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models

Abstract page for arXiv paper 2505.17568: JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models

arXiv - AI · 4 min · 27 days ago

Machine Learning

[2505.17561] Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model

Abstract page for arXiv paper 2505.17561: Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diff...

arXiv - AI · 4 min · 27 days ago

Previous Page 23 Next

Stay updated with AI News

Get the latest news, tools, and insights delivered to your inbox.

Subscribe to Newsletter

Daily or weekly digest • Unsubscribe anytime

AI Safety & Ethics

Top This Week

[2603.14267] DiFlowDubber: Discrete Flow Matching for Automated Video Dubbing via Cross-Modal Alignment and Synchronization

[2601.22440] AI and My Values: User Perceptions of LLMs' Ability to Extract, Embody, and Explain Human Values from Casual Conversations

[2601.13622] CARPE: Context-Aware Image Representation Prioritization via Ensemble for Large Vision-Language Models

All Content

[2511.00177] Can SAEs reveal and mitigate racial biases of LLMs in healthcare?

[2510.21910] Adversarial Déjà Vu: Jailbreak Dictionary Learning for Stronger Generalization to Unseen Attacks

[2510.18808] Does Feedback Alignment Work at Biological Timescales?

[2510.18299] Physics-Informed Parametric Bandits for Beam Alignment in mmWave Communications

[2510.07940] TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

[2510.04727] Directional Sheaf Hypergraph Networks: Unifying Learning on Directed and Undirected Hypergraphs

[2509.22134] Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding

[2508.07697] Semantic-Enhanced Time-Series Forecasting via Large Language Models

[2508.07638] Data Selection for LLM Alignment Using Fine-Grained Preferences

[2509.15888] Distribution-Aligned Decoding for Efficient LLM Task Adaptation

[2509.11128] ERIS: Evolutionary Real-world Interference Scheme for Jailbreaking Audio Large Models

[2506.19558] Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

[2508.11999] MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

[2506.07459] ProteinZero: Self-Improving Protein Generation via Online Reinforcement Learning

[2506.02630] Hyperbolic Aware Minimization: Implicit Bias for Sparsity

[2506.24108] Navigating with Annealing Guidance Scale in Diffusion Space

[2505.21366] PLANETALIGN: A Comprehensive Python Library for Benchmarking Network Alignment

[2505.16017] GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

[2505.17568] JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models

[2505.17561] Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model

Related Topics

Stay updated with AI News