Outcomes – Numeracy

Research synthesis is AI-generated, human reviewed. Updated 05/2026.

Displaying 1 - 30 of 224

A Scoping Review Of Large Language Model-Based Pedagogical Agents

Shan Li, Juan Zheng. (04/2026). arXiv. https://arxiv.org/abs/2604.12253v1
Beyond The AI Tutor: Social Learning With LLM Agents

Harsh Kumar, Jonathan Vincentius, Zi Kang (Jace) Mu, Ashton Anderson. (04/2026). arXiv. https://arxiv.org/abs/2604.02677v1
Evaluating Vision-Language And Large Language Models For Automated Student Assessment In Indonesian Classrooms

Nurul Aisyah, Muhammad Dehan Al Kautsar, Arif Hidayat, Raqib Chowdhury, and Fajri Koto. (04/2026). arXiv. https://arxiv.org/abs/2506.04822v3
How Motivation Relates To Generative AI Use: A Large-Scale Survey Of Mexican High School Students

Echo Zexuan Pan, Danny Glick, Ying Xu. (04/2026). arXiv. https://arxiv.org/abs/2603.19263v2
Practitioner Voices Summit: How Teachers Evaluate AI Tools Through Deliberative Sensemaking

Dorottya Demszky, Christopher Mah, Helen Higgins. (03/2026). arXiv. https://arxiv.org/abs/2603.22588v3
Evaluating A Data-Driven Redesign Process For Intelligent Tutoring Systems

Qianru Lyu, Conrad Borchers, Meng Xia, Karen Xiao, Paulo F. Carvalho, Kenneth R. Koedinger, and Vincent Aleven. (03/2026). arXiv. https://arxiv.org/abs/2603.29094v1
Exploring Student Perception On Gen AI Adoption In Higher Education: A Descriptive Study

Harpreet Singh, Jaspreet Singh, Satwant Singh, Rupinder Singh, Shamim Ibne Shahid, Mohammad Hassan Tayarani Najaran. (03/2026). arXiv. https://arxiv.org/abs/2603.27777v1
Artificial Intelligence In Secondary Education: Educational Affordances And Constraints Of ChatGPT-4O Use

Tryfon Sivenas, Panagiota Maragkaki. (03/2026). arXiv. https://arxiv.org/abs/2602.13717v2
Facet: Teacher-Centred LLM-Based Multi-Agent Systems- Towards Personalized Educational Worksheets

Jana Gonnermann-Muller, Jennifer Haase, Konstantin Fackeldey, Sebastian Pokutta. (03/2026). arXiv. https://arxiv.org/abs/2508.11401v4
Heal: Hindsight Entropy-Assisted Learning For Reasoning Distillation

Wenjing Zhang, Jiangze Yan, Jieyun Huang, Yi Shen, Shuming Shi, Ping Chen, Ning Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian. (03/2026). arXiv. https://arxiv.org/abs/2603.10359v1
Faster, Cheaper, More Accurate: Specialised Knowledge Tracing Models Outperform Llms

Prarthana Bhattacharyya, Joshua Mitton, Simon Woodhead, Ralph Abboud. (03/2026). arXiv. https://arxiv.org/pdf/2603.02830v1
When Shallow Wins: Silent Failures And The Depth-Accuracy Paradox In Latent Reasoning

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary. (03/2026). arXiv. https://arxiv.org/pdf/2603.03475v1
Conversational Learning Diagnosis Via Reasoning Multi-Turn Interactive Learning

Fangzhou Yao, Sheng Chang, Weibo Gao, Qi Liu. (03/2026). arXiv. https://arxiv.org/pdf/2603.03236v1
Knowledge Without Wisdom: Measuring Misalignment Between Llms And Intended Impact

Michael Hardy, Yunsung Kim. (03/2026). arXiv. https://arxiv.org/pdf/2603.00883v1
Llama Lima: A Living Meta-Analysis On The Effects Of Generative AI On Learning Mathematics Version 2, 03/26

Anselm Strohmaier, Samira Bodefeld, Oliver Straser, Frank Reinhold. (03/2026). arXiv. https://arxiv.org/pdf/2601.18685v2
The Aftermath Of Drawedumath: Vision Language Models Underperform With Struggling Students And Misdiagnose Errors

Li Lucy, Albert Zhang, Nathan Anderson, Ryan Knight, Kyle Lo. (03/2026). arXiv. https://arxiv.org/pdf/2603.00925v1
Confusion-Aware Rubric Optimization For Llm-Based Automated Grading

Yucheng Chu, Hang Li, Kaiqi Yang, Yasemin Copur-Gencturk, Joseph Krajcik, Namsoo Shin, Jiliang Tang. (02/2026). arXiv. https://arxiv.org/pdf/2603.00451v1
Aitutor-Evalkit: Exploring The Capabilities Of AI Tutors

Numaan Naeem, Kaushal Kumar Maurya, Kseniia Petukhova, Ekaterina Kochmar. (02/2026). arXiv. https://arxiv.org/pdf/2512.03688v2
Beyond Single-Turn: A Survey On Multi-Turn Interactions With Large Language Models

Yubo Li, Xiaobin Shen, Xinyu Yaot, Xueying Ding, Yidi Miaot, Krishnan Ramayya, Rema Padman. (02/2026). arXiv. https://arxiv.org/pdf/2504.04717v5
Beyond End-To-End Video Models: An Llm-Based Multi-Agent System For Educational Video Generation

Lingyong Yan, Jiulong Wu, Dong Xie, Weixian Shi, Deguo Xia, Jizhou Huang. (02/2026). arXiv. https://arxiv.org/pdf/2602.11790v1
Visual Reasoning Benchmark: Evaluating Multimodal Llms On Classroom-Authentic Visual Problems From Primary Education

Mohamed Huti, Alasdair Mackintosh, Amy Waldock, Dominic Andrews, Maxime Leliievre, Moritz Boos, Tobias Murray, Paul Atherton, Robin A. A. Ince, Oliver G. B. Garrod. (02/2026). arXiv. https://arxiv.org/pdf/2602.12196v1
Integrating Generative AI-Enhanced Cognitive Systems In Higher Education: From Stakeholder Perceptions To A Conceptual Framework Considering The Eu AI Act

Da-Lun Chen, Prasasthy Balasubramanian, Lauri Loven, Susanna Pirttikangas, Jaakko Sauvola, Panagiotis Kostakos. (02/2026). arXiv. https://arxiv.org/pdf/2602.10802v1
Do Teachers Dream Of Genai Widening Educational (In)Equality? Envisioning The Future Of K-12 Genai Education From Global Teachers' Perspectives

Ruiwei Xiao, Qing Xiao, Xinying Hou, Phenyo Phemelo Moletsane, Hanqi Jane Li, Hong Shen, John Stamper. (02/2026). arXiv. https://arxiv.org/pdf/2509.10782v4
Language Bottleneck Models For Qualitative Knowledge State Modeling

Antonin Berthon, Mihaela van der Schaar. (02/2026). arXiv. https://arxiv.org/pdf/2506.16982v2
Open Mathematical Tasks As A Didactic Response To Generative Artificial Intelligence In Post-AI Contexts

Felix De la Cruz Serrano. (02/2026). arXiv. https://arxiv.org/pdf/2602.09242v1
Llm Agents For Education: Advances And Applications

Zhendong Chu, Shen Wang, Jian Xie, Tinghui Zhu, Yibo Yan, Jinheng Ye, Aoxiao Zhong, Xuming Hu, Jing Liang, Philip S. Yu, Qingsong Wen. (02/2026). arXiv. https://arxiv.org/pdf/2503.11733v2
Benchmarking Large Language Models For Diagnosing Students' Cognitive Skills From Handwritten Math Work

Yoonsu Kim, Hyoungwook Jin, Hayeon Doh, Eunhye Kim, Dongyun Jung, Seungju Kim, Kiyoon Choi, Jinho Son, Juho Kim. (02/2026). arXiv. https://arxiv.org/pdf/2504.00843v2
Learning Context: A Unified Framework And Roadmap For Context-Aware Ai In Education

Naiming Liu, Brittany Bradford, Johaun Hatchett, Gabriel Diaz, Lorenzo Luzi, Zichao Wang, Debshila Basu Mallick, Richard Baraniuk. (01/2026). arXiv. https://arxiv.org/pdf/2512.24362v2
Facet: Multi-Agent Ai Supporting Teachers In Scaling Differentiated Learning For Diverse Students

Jana Gonnermann-Muller, Jennifer Haase, Nicolas Leins, Moritz Igel, Konstantin Fackeldey and Sebastian Pokutta. (01/2026). arXiv. https://arxiv.org/pdf/2601.22788v1
Do Teachers Dream Of Genai Widening Educational (In)Equality? Envisioning The Future Of K-12 Genai Education From Global Teachers' Perspectives

Ruiwei Xiao, Qing Xiao, Xinying Hou, Phenyo Phemelo Moletsane, Hanqi Jane Li, Hong Shen, John Stamper. (01/2026). arXiv. https://arxiv.org/pdf/2509.10782v2

Search and Filter

Submit a research study

Outcomes – Numeracy

A Scoping Review Of Large Language Model-Based Pedagogical Agents

Beyond The AI Tutor: Social Learning With LLM Agents

Evaluating Vision-Language And Large Language Models For Automated Student Assessment In Indonesian Classrooms

How Motivation Relates To Generative AI Use: A Large-Scale Survey Of Mexican High School Students

Practitioner Voices Summit: How Teachers Evaluate AI Tools Through Deliberative Sensemaking

Evaluating A Data-Driven Redesign Process For Intelligent Tutoring Systems

Exploring Student Perception On Gen AI Adoption In Higher Education: A Descriptive Study

Artificial Intelligence In Secondary Education: Educational Affordances And Constraints Of ChatGPT-4O Use

Facet: Teacher-Centred LLM-Based Multi-Agent Systems- Towards Personalized Educational Worksheets

Heal: Hindsight Entropy-Assisted Learning For Reasoning Distillation

Faster, Cheaper, More Accurate: Specialised Knowledge Tracing Models Outperform Llms

When Shallow Wins: Silent Failures And The Depth-Accuracy Paradox In Latent Reasoning

Conversational Learning Diagnosis Via Reasoning Multi-Turn Interactive Learning

Knowledge Without Wisdom: Measuring Misalignment Between Llms And Intended Impact

Llama Lima: A Living Meta-Analysis On The Effects Of Generative AI On Learning Mathematics Version 2, 03/26

The Aftermath Of Drawedumath: Vision Language Models Underperform With Struggling Students And Misdiagnose Errors

Confusion-Aware Rubric Optimization For Llm-Based Automated Grading

Aitutor-Evalkit: Exploring The Capabilities Of AI Tutors

Beyond Single-Turn: A Survey On Multi-Turn Interactions With Large Language Models

Beyond End-To-End Video Models: An Llm-Based Multi-Agent System For Educational Video Generation

Visual Reasoning Benchmark: Evaluating Multimodal Llms On Classroom-Authentic Visual Problems From Primary Education

Integrating Generative AI-Enhanced Cognitive Systems In Higher Education: From Stakeholder Perceptions To A Conceptual Framework Considering The Eu AI Act

Do Teachers Dream Of Genai Widening Educational (In)Equality? Envisioning The Future Of K-12 Genai Education From Global Teachers' Perspectives

Language Bottleneck Models For Qualitative Knowledge State Modeling

Open Mathematical Tasks As A Didactic Response To Generative Artificial Intelligence In Post-AI Contexts

Llm Agents For Education: Advances And Applications

Benchmarking Large Language Models For Diagnosing Students' Cognitive Skills From Handwritten Math Work

Learning Context: A Unified Framework And Roadmap For Context-Aware Ai In Education

Facet: Multi-Agent Ai Supporting Teachers In Scaling Differentiated Learning For Diverse Students

Do Teachers Dream Of Genai Widening Educational (In)Equality? Envisioning The Future Of K-12 Genai Education From Global Teachers' Perspectives