Refactor#22: Make LanguageCode model Pydantic-idiomatic (#85)

sushant-suse · web-flow · commit 3a169cfb0f4e · 2025-10-07T16:04:04.000+05:30
* refactor#22: make LanguageCode model Pydantic-idiomatic Signed-off-by: sushant-suse <sushant.gaurav@suse.com> * refactor#22: Renamed changelog file Signed-off-by: sushant-suse <sushant.gaurav@suse.com> * refactor#22: make LanguageCode model Pydantic-idiomatic and restored xpath() Signed-off-by: sushant-suse <sushant.gaurav@suse.com> * refactor #22: updated langauge.py file as per Toms comments Signed-off-by: sushant-suse <sushant.gaurav@suse.com> --------- Signed-off-by: sushant-suse <sushant.gaurav@suse.com>
diff --git a/changelog.d/85.refactor.rst b/changelog.d/85.refactor.rst
@@ -0,0 +1 @@
+Refactored the :class:`~docbuild.models.language.LanguageCode` model to be more idiomatic to Pydantic by removing a custom ``__init__`` initializer and using a :meth:`~docbuild.models.language.LanguageCode.model_validator` method for string parsing.
diff --git a/src/docbuild/models/doctype.py b/src/docbuild/models/doctype.py
@@ -204,7 +204,7 @@ def coerce_langs(cls, value: str | list[str | LanguageCode]) -> list[LanguageCod
             value = sorted(value.split(','))
         return sorted(
             [
-                lang if isinstance(lang, LanguageCode) else LanguageCode(lang)
+                lang if isinstance(lang, LanguageCode) else LanguageCode(language=lang)
                 for lang in value
             ]
         )
@@ -273,4 +273,4 @@ def xpath(self) -> str:
             language = ' or '.join([f'@lang={lang.language!r}' for lang in self.langs])
             language = f'language[{language}]'
 
-        return f'{product}/{docset}/builddocs/{language}'
+        return f'{product}/{docset}/builddocs/{language}'
diff --git a/src/docbuild/models/language.py b/src/docbuild/models/language.py
@@ -1,25 +1,14 @@
 """Language model for representing language codes."""
 
-from functools import total_ordering
+from functools import total_ordering, cached_property
 import re
 from typing import Any, ClassVar
 
-from pydantic import BaseModel, Field, computed_field
+from pydantic import BaseModel, Field, computed_field, model_validator, field_validator
 from pydantic.config import ConfigDict
-from pydantic.functional_validators import field_validator
 
 from ..constants import ALLOWED_LANGUAGES
 
-# Old definition:
-# Language allows all the definied languages, but also "*" (=ALL).
-# We only define "ALL" as uppercase to denote a constant, the rest is lowercase.
-# Language = StrEnum(
-#     "Language",
-#     # The dict is mapped like "de_de": "de-de"
-#     {"ALL": "*"} | {item.replace("-", "_"): item
-#                     for item in sorted(ALLOWED_LANGUAGES)},
-# )
-
 
 @total_ordering
 class LanguageCode(BaseModel):
@@ -52,13 +41,13 @@ class LanguageCode(BaseModel):
     )
     """Class variable containing all allowed languages."""
 
-    def __init__(self, language: str, **kwargs: dict[Any, Any]) -> None:
-        """Initialize the LanguageCode instance."""
-        super().__init__(language=language.replace('_', '-'), **kwargs)
-        if language == '*':
-            self._lang, self._country = ('*', '*')
-        else:
-            self._lang, self._country = re.split(r'[_-]', language)
+    @model_validator(mode='before')
+    @classmethod
+    def _convert_str_to_dict(cls, data: Any) -> Any:
+        """Allow initializing LanguageCode from a plain string."""
+        if isinstance(data, str):
+            return {'language': data}
+        return data
 
     def __str__(self) -> str:
         """Implement str(self)."""
@@ -129,12 +118,19 @@ def matches(self, other: 'LanguageCode | str') -> bool:
         return (
             self.language == '*' or other_value == '*' or self.language == other_value
         )
+    
+    @field_validator('language', mode='before')
+    @classmethod
+    def _normalize_language_separator(cls, value: str) -> str:
+        """Normalize separator from _ to -."""
+        if isinstance(value, str):
+            return value.replace('_', '-')
+        return value
 
     @field_validator('language')
     @classmethod
     def validate_language(cls, value: str) -> str:
         """Check if the passed language adheres to the allowed language."""
-        # value = value.replace("_", "-")
         if value not in cls.ALLOWED_LANGS:
             raise ValueError(
                 (
@@ -144,14 +140,32 @@ def validate_language(cls, value: str) -> str:
             )
         return value
 
+    @cached_property
+    def _parts(self) -> tuple[str, str] | tuple[str]:
+        """Split the `language` code into language and country.
+
+        This method parses the :attr:`language` string into its parts
+        and caches the result per instance to avoid redundant parsing operations.
+
+        :returns: A tuple containing:
+          - ``(language, country)`` if both parts are present.
+          - ``('*',)`` if the language code is ``"*"``
+        """
+        if self.language == '*':
+            return ('*',)
+        
+        # Use split('-') as the separator is already normalized
+        parts = self.language.split('-')
+        return (parts[0], parts[1]) if len(parts) > 1 else (parts[0],)
+
     @computed_field(
         repr=False,
         title='The language part of the language code',
         examples=['en', 'de', 'ja'],
     )
     def lang(self) -> str:
         """Extract the language part of the language code (property)."""
-        return self._lang
+        return self._parts[0]
 
     @computed_field(
         repr=False,
@@ -160,4 +174,4 @@ def lang(self) -> str:
     )
     def country(self) -> str:
         """Extract the country part of the language code (property)."""
-        return self._country
+        return self._parts[1] if len(self._parts) > 1 else '*'
diff --git a/src/docbuild/utils/merge.py b/src/docbuild/utils/merge.py
@@ -30,7 +30,7 @@ def _merge_langs(
     :return: Merged sorted list of LanguageCode objects.
     """
     if '*' in langs1 or '*' in langs2:
-        return [LanguageCode('*')]
+        return [LanguageCode(language='*')]
     return sorted(set(chain(langs1, langs2)))  # sorted(set(langs1 + langs2))
 
 
@@ -187,4 +187,4 @@ def merge_doctypes(*doctypes: Doctype) -> list[Doctype]:  # noqa: C901
             new_result.append(dt)
         result = _dedup_doctypes(new_result)
 
-    return _dedup_doctypes(result)
+    return _dedup_doctypes(result)
diff --git a/tests/models/test_doctype.py b/tests/models/test_doctype.py
@@ -14,7 +14,7 @@ def test_valid_doctype():
     assert doctype.product == Product.sles
     assert doctype.docset == ['15-SP6']
     assert doctype.lifecycle == LifecycleFlag.supported
-    assert doctype.langs == [LanguageCode('en-us')]
+    assert doctype.langs == [LanguageCode(language='en-us')]
 
 
 def test_str_in_doctype():
@@ -46,7 +46,7 @@ def test_string_langs_in_doctype():
         lifecycle='supported',
         langs='en-us',
     )
-    assert doctype.langs == [LanguageCode('en-us')]
+    assert doctype.langs == [LanguageCode(language='en-us')]
 
 
 def test_multiplestrings_langs_in_doctype():
@@ -56,7 +56,7 @@ def test_multiplestrings_langs_in_doctype():
         lifecycle='supported',
         langs='en-us,de-de',
     )
-    assert doctype.langs == [LanguageCode('de-de'), LanguageCode('en-us')]
+    assert doctype.langs == [LanguageCode(language='de-de'), LanguageCode(language='en-us')]
 
 
 @pytest.mark.parametrize(
@@ -68,7 +68,7 @@ def test_multiplestrings_langs_in_doctype():
                 Product.sles,
                 ['15-SP6'],
                 LifecycleFlag.unknown,
-                [LanguageCode('en-us')],
+                [LanguageCode(language='en-us')],
             ),
         ),
         (
@@ -77,52 +77,52 @@ def test_multiplestrings_langs_in_doctype():
                 Product.sles,
                 ['15-SP5', '15-SP6'],
                 LifecycleFlag.unknown,
-                [LanguageCode('en-us')],
+                [LanguageCode(language='en-us')],
             ),
         ),
         (
             '//en-us',
-            (Product.ALL, ['*'], LifecycleFlag.unknown, [LanguageCode('en-us')]),
+            (Product.ALL, ['*'], LifecycleFlag.unknown, [LanguageCode(language='en-us')]),
         ),
         (
             '/*/*/en-us',
-            (Product.ALL, ['*'], LifecycleFlag.unknown, [LanguageCode('en-us')]),
+            (Product.ALL, ['*'], LifecycleFlag.unknown, [LanguageCode(language='en-us')]),
         ),
         (
             '*//en-us',
-            (Product.ALL, ['*'], LifecycleFlag.unknown, [LanguageCode('en-us')]),
+            (Product.ALL, ['*'], LifecycleFlag.unknown, [LanguageCode(language='en-us')]),
         ),
         (
             '/*/en-us',
-            (Product.ALL, ['*'], LifecycleFlag.unknown, [LanguageCode('en-us')]),
+            (Product.ALL, ['*'], LifecycleFlag.unknown, [LanguageCode(language='en-us')]),
         ),
         (
             '*/*/en-us',
-            (Product.ALL, ['*'], LifecycleFlag.unknown, [LanguageCode('en-us')]),
+            (Product.ALL, ['*'], LifecycleFlag.unknown, [LanguageCode(language='en-us')]),
         ),
         (
             '*/@beta/en-us',
-            (Product.ALL, ['*'], LifecycleFlag.beta, [LanguageCode('en-us')]),
+            (Product.ALL, ['*'], LifecycleFlag.beta, [LanguageCode(language='en-us')]),
         ),
         (
             '*/*@beta/en-us',
-            (Product.ALL, ['*'], LifecycleFlag.beta, [LanguageCode('en-us')]),
+            (Product.ALL, ['*'], LifecycleFlag.beta, [LanguageCode(language='en-us')]),
         ),
         (
             'sles/*@beta/en-us',
-            (Product.sles, ['*'], LifecycleFlag.beta, [LanguageCode('en-us')]),
+            (Product.sles, ['*'], LifecycleFlag.beta, [LanguageCode(language='en-us')]),
         ),
         (
             '/sles/*@beta/en-us',
-            (Product.sles, ['*'], LifecycleFlag.beta, [LanguageCode('en-us')]),
+            (Product.sles, ['*'], LifecycleFlag.beta, [LanguageCode(language='en-us')]),
         ),
         (
             '/*/*@supported/*',
-            (Product.ALL, ['*'], LifecycleFlag.supported, [LanguageCode('*')]),
+            (Product.ALL, ['*'], LifecycleFlag.supported, [LanguageCode(language='*')]),
         ),
         (
             '/*/*/*',
-            (Product.ALL, ['*'], LifecycleFlag.unknown, [LanguageCode('*')]),
+            (Product.ALL, ['*'], LifecycleFlag.unknown, [LanguageCode(language='*')]),
         ),
     ],
 )
@@ -200,9 +200,9 @@ def test_sorted_docsets_in_doctype():
 def test_sorted_langs_in_doctype():
     dt1 = Doctype.from_str('sles/15-SP6/en-us,zh-cn,de-de')
     assert dt1.langs == [
-        'de-de',
-        'en-us',
-        'zh-cn',
+        LanguageCode(language='de-de'),
+        LanguageCode(language='en-us'),
+        LanguageCode(language='zh-cn'),
     ]
 
 
@@ -224,7 +224,7 @@ def test_sorted_langs_in_doctype_instantiation():
         lifecycle=LifecycleFlag.supported,
         langs=langs,
     )
-    assert dt1.langs == sorted([LanguageCode(lang) for lang in langs])
+    assert dt1.langs == sorted([LanguageCode(language=lang) for lang in langs])
 
 
 @pytest.mark.parametrize(
@@ -280,4 +280,4 @@ def test_sorted_langs_in_doctype_instantiation():
 def test_xpath_in_doctype(string, xpath):
     """Test the XPath extraction from a Doctype."""
     doctype = Doctype.from_str(string)
-    assert xpath == doctype.xpath()
+    assert xpath == doctype.xpath()
diff --git a/tests/models/test_language.py b/tests/models/test_language.py
diff --git a/tests/utils/test_merge.py b/tests/utils/test_merge.py

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	+Refactored the :class:`~docbuild.models.language.LanguageCode` model to be more idiomatic to Pydantic by removing a custom ``__init__`` initializer and using a :meth:`~docbuild.models.language.LanguageCode.model_validator` method for string parsing.
Original file line number	Diff line number	Diff line change
`@@ -204,7 +204,7 @@ def coerce_langs(cls, value: str \| list[str \| LanguageCode]) -> list[LanguageCod`
`204`	`204`	`value = sorted(value.split(','))`
`205`	`205`	`return sorted(`
`206`	`206`	`[`
`207`		`- lang if isinstance(lang, LanguageCode) else LanguageCode(lang)`
	`207`	`+ lang if isinstance(lang, LanguageCode) else LanguageCode(language=lang)`
`208`	`208`	`for lang in value`
`209`	`209`	`]`
`210`	`210`	`)`
`@@ -273,4 +273,4 @@ def xpath(self) -> str:`
`273`	`273`	`language = ' or '.join([f'@lang={lang.language!r}' for lang in self.langs])`
`274`	`274`	`language = f'language[{language}]'`
`275`	`275`
`276`		`- return f'{product}/{docset}/builddocs/{language}'`
	`276`	`+ return f'{product}/{docset}/builddocs/{language}'`