Data Quality and Fragmentation in Risk Prediction and Underwriting

May 28, 2026 by Anup Kale

Introduction

Data-driven underwriting has transformed the insurance industry by enabling organizations to assess risk with greater precision and speed. Underwriting refers to the process of evaluating and pricing risk before issuing insurance coverage or approving financial products. Risk prediction involves the use of historical, behavioural, and real-time data to estimate the probability of future losses or claims.

Data quality refers to the accuracy, completeness, consistency, timeliness, and reliability of data used within organizational processes (IBM, 2023). Data fragmentation occurs when information is distributed across disconnected systems, departments, or third-party providers without integration or governance.

Poor data management has become a major industry challenge because insurers increasingly rely on Artificial Intelligence (AI), machine learning (ML), and predictive analytics for underwriting decisions. According to Gartner (2023), poor data quality costs organizations an average of USD 12.9 million annually through operational inefficiencies, compliance failures, and inaccurate business decisions.

Data Quality Challenges

Insurance underwriting depends heavily on high-quality customer, claims, financial, and behavioural data. However, organizations frequently encounter multiple quality issues.

Common Data Quality Problems

Data Quality Issue	Impact on Underwriting
Incomplete data	Missing customer attributes reduce predictive accuracy
Inaccurate records	Incorrect pricing and risk assessment
Duplicate records	Inflated exposure and inconsistent customer profiles
Inconsistent formats	Integration failures across systems
Outdated information	Misaligned risk assumptions
Lack of real-time synchronization	Delayed fraud detection
Biased datasets	Discriminatory underwriting outcomes

Incomplete or inaccurate information can significantly distort risk scoring models. For example, motor insurers relying on outdated telematics or address data may incorrectly price policies, leading either to premium leakage or adverse selection.

Bias within datasets also creates ethical and regulatory concerns. AI models trained on historically biased claims or demographic data may unintentionally discriminate against specific customer groups, exposing insurers to reputational and legal risks (PwC, 2024).

Data quality issues also directly affect:

Fraud detection capabilities
Customer profiling accuracy
Regulatory reporting reliability
Claims prediction models
Credit and actuarial assessments

Data Fragmentation Problems

Many insurers operate across decades-old legacy platforms acquired through mergers and acquisitions. As a result, customer and policy data often remain fragmented across multiple systems.

Sources of Fragmentation

Legacy policy administration systems
Siloed business units
Third-party claims processors
Cloud and on-premises hybrid environments
External data providers
Acquired subsidiaries with incompatible architectures

For example, a global insurer may maintain separate systems for life insurance, health insurance, and general insurance products. This fragmentation creates inconsistent customer views and operational inefficiencies.

Operational Impacts

Fragmentation Issue	Business Impact
Multiple customer identities	Poor customer experience
Delayed data synchronization	Slow underwriting approvals
Inconsistent claims history	Inaccurate risk models
Manual reconciliation	Increased operational costs
Limited enterprise visibility	Reduced fraud detection efficiency

McKinsey (2023) estimates that insurers spend up to 30% of operational effort reconciling fragmented data across systems.

Technology Solutions

Modern insurers are adopting advanced data architectures to overcome fragmentation and quality challenges.

Master Data Management (MDM)

MDM creates a single trusted view of customers, policies, and claims across systems. It reduces duplication and improves data consistency.

Data Lakes and Lake houses

Data lakes consolidate structured and unstructured data into centralized repositories. Lakehouse architectures combine warehouse governance with data lake scalability.

Traditional Architecture	Modern Architecture
Siloed databases	Unified data platforms
Batch processing	Real-time streaming
Manual integration	API-driven ecosystems
Limited scalability	Cloud-native scalability

AI/ML-Based Data Cleansing

Machine learning models can automatically:

Detect anomalies
Resolve duplicate entities
Standardize formats
Predict missing values

Data Fabric and Data Mesh

Data fabrics provide centralized governance with distributed integration capabilities. Data mesh architectures decentralize ownership while maintaining governance standards.

Explainable AI (XAI)

Regulators increasingly require underwriting decisions to be explainable. XAI frameworks improve transparency by identifying how AI models generate risk scores.

Insurance Industry Use Cases

Use Case 1: Health Insurance Fraud Detection

A health insurer faced increasing fraudulent claims due to fragmented claims and provider databases. Data duplication prevented effective pattern detection.

Challenge

Multiple provider databases
Inconsistent patient identifiers
Delayed claims reconciliation

Impact

Fraudulent claims increased operational losses by approximately 8% annually.

Solution

The insurer implemented:

Master Data Management (MDM)
AI-driven anomaly detection
Real-time API integrations

The initiative reduced fraud losses by 22% within two years.

Use Case 2: Motor Insurance Underwriting

A motor insurer relied on outdated customer address and driving behaviour data.

Challenge

Incomplete telematics data
Delayed updates from external providers
Legacy underwriting systems

Impact

Premium pricing inaccuracies reduced underwriting profitability.

Solution

The insurer deployed:

Cloud-native underwriting platforms
Real-time telematics integration
AI-based data cleansing

This improved pricing accuracy and reduced claims ratio volatility.

Financial Impact

Poor-quality and fragmented data have measurable financial consequences.

Estimated Financial Impacts

Area	Estimated Impact
Poor data quality	USD 12–15 million annually
Fraud losses	5–10% of claims costs
Operational inefficiency	20–30% productivity loss
Regulatory penalties	Multi-million-dollar fines
Revenue leakage	Incorrect pricing and missed opportunities

According to IBM (2023), organizations with mature data governance programs achieve up to 40% faster decision-making and significantly lower operational risk.

Modernization initiatives also produce measurable ROI through:

Faster underwriting cycles
Reduced claims fraud
Lower compliance costs
Improved customer retention

Conclusion

Data quality and fragmentation remain major obstacles to effective risk prediction and underwriting within the insurance industry. Incomplete, inconsistent, and siloed data undermine predictive accuracy, increase operational costs, and expose organizations to regulatory and financial risks.

Modern technologies such as MDM, AI-driven cleansing, cloud-native underwriting platforms, and data fabrics offer significant opportunities to improve data integrity and operational efficiency. However, technology alone is insufficient. Organizations must also establish strong governance frameworks, ethical AI practices, and enterprise-wide data ownership models.

As insurers continue to adopt AI-driven underwriting and real-time analytics, high-quality unified data will become a critical competitive differentiator. Organizations that successfully modernize their data ecosystems will achieve faster decision-making, lower operational risk, improved customer experiences, and stronger regulatory compliance.

References

Basel Committee on Banking Supervision (BCBS) 2023, Principles for Effective Risk Data Aggregation and Risk Reporting, Bank for International Settlements, Basel.

Gartner 2023, The Cost of Poor Data Quality to Organizations, Gartner Research, Stamford.

IBM 2023, The State of Data Quality and AI Governance in Financial Services, IBM Institute for Business Value, New York.

McKinsey & Company 2023, Insurance 2030: The Impact of AI and Data Modernization, McKinsey Global Institute, New York.

PwC 2024, Responsible AI in Insurance Underwriting, PricewaterhouseCoopers Global Insurance Report, London.

APRA 2024, CPS 230 Operational Risk Management Standard, Australian Prudential Regulation Authority, Sydney.

Deloitte 2023, Data Modernization in Financial Services, Deloitte Insights, London.

European Union 2018, General Data Protection Regulation (GDPR), Official Journal of the European Union, Brussels.