add tars tests

Benedikt Fuchs · Benedikt Fuchs · commit 187a25a61420 · 2022-11-21T13:55:13.000+01:00
diff --git a/flair/__init__.py b/flair/__init__.py
@@ -9,7 +9,7 @@
 cache_root = Path(os.getenv("FLAIR_CACHE_ROOT", Path(Path.home(), ".flair")))
 
 # global variable: device
-if torch.cuda.is_available():
+if torch.cuda.is_available() and False:
     device = torch.device("cuda:0")
 else:
     device = torch.device("cpu")
diff --git a/flair/models/tars_model.py b/flair/models/tars_model.py
@@ -298,6 +298,7 @@ def predict_zero_shot(
             label_dictionary=label_dictionary,
             label_type="-".join(label_dictionary.get_items()),
             multi_label=multi_label,
+            force_switch=True,  # overwrite any older configuration
         )
 
         try:
diff --git a/tests/model_test_utils.py b/tests/model_test_utils.py
@@ -3,7 +3,7 @@
 import pytest
 
 import flair
-from flair.data import Sentence, Dictionary
+from flair.data import Dictionary, Sentence
 from flair.nn import Model
 from flair.trainers import ModelTrainer
 
@@ -72,16 +72,18 @@ def build_model(self, embeddings, label_dict, **kwargs):
     def has_embedding(self, sentence):
         return sentence.get_embedding().cpu().numpy().size > 0
 
-    @pytest.mark.integration
-    def test_load_use_model(self, example_sentence):
+    @pytest.fixture
+    def loaded_pretrained_model(self):
         if self.pretrained_model is None:
             pytest.skip("For this test `pretrained_model` needs to be set.")
-        loaded_model = self.model_cls.load(self.pretrained_model)
+        yield self.model_cls.load(self.pretrained_model)
 
-        loaded_model.predict(example_sentence)
-        loaded_model.predict([example_sentence, self.empty_sentence])
-        loaded_model.predict([self.empty_sentence])
-        del loaded_model
+    @pytest.mark.integration
+    def test_load_use_model(self, example_sentence, loaded_pretrained_model):
+        loaded_pretrained_model.predict(example_sentence)
+        loaded_pretrained_model.predict([example_sentence, self.empty_sentence])
+        loaded_pretrained_model.predict([self.empty_sentence])
+        del loaded_pretrained_model
 
         example_sentence.clear_embeddings()
         self.empty_sentence.clear_embeddings()
@@ -119,7 +121,9 @@ def test_train_load_use_model(self, results_base_path, corpus, embeddings, examp
         del loaded_model
 
     @pytest.mark.integration
-    def test_train_load_use_model_multi_corpus(self, results_base_path, multi_corpus, embeddings, example_sentence, train_test_sentence):
+    def test_train_load_use_model_multi_corpus(
+        self, results_base_path, multi_corpus, embeddings, example_sentence, train_test_sentence
+    ):
         flair.set_seed(123)
         label_dict = multi_corpus.make_label_dictionary(label_type=self.train_label_type)
 
@@ -190,16 +194,13 @@ def test_forward_loss(self, labeled_sentence, embeddings):
         assert loss.size() == ()
         assert count == len(labeled_sentence.get_labels(self.train_label_type))
 
-    def test_load_use_model_keep_embedding(self, example_sentence):
-        if self.pretrained_model is None:
-            pytest.skip("For this test `pretrained_model` needs to be set.")
-        loaded_model = self.model_cls.load(self.pretrained_model)
+    def test_load_use_model_keep_embedding(self, example_sentence, loaded_pretrained_model):
 
         assert not self.has_embedding(example_sentence)
 
-        loaded_model.predict(example_sentence, embedding_storage_mode="cpu")
+        loaded_pretrained_model.predict(example_sentence, embedding_storage_mode="cpu")
         assert self.has_embedding(example_sentence)
-        del loaded_model
+        del loaded_pretrained_model
 
     def test_train_load_use_model_multi_label(
         self, results_base_path, multi_class_corpus, embeddings, example_sentence, multiclass_train_test_sentence
diff --git a/tests/models/test_entity_linker.py b/tests/models/test_entity_linker.py
@@ -10,9 +10,7 @@
 class TestEntityLinker(BaseModelTest):
     model_cls = EntityLinker
     train_label_type = "nel"
-    training_args = dict(
-        max_epochs=2
-    )
+    training_args = dict(max_epochs=2)
 
     @pytest.fixture
     def embeddings(self):
diff --git a/tests/models/test_sequence_tagger.py b/tests/models/test_sequence_tagger.py
@@ -1,7 +1,7 @@
 import pytest
 
 import flair
-from flair.embeddings import WordEmbeddings, FlairEmbeddings
+from flair.embeddings import FlairEmbeddings, WordEmbeddings
 from flair.models import SequenceTagger
 from flair.trainers import ModelTrainer
 from tests.model_test_utils import BaseModelTest
@@ -27,31 +27,44 @@ def has_embedding(self, sentence):
                 return False
         return True
 
+    def build_model(self, embeddings, label_dict, **kwargs):
+        model_args = dict(self.model_args)
+        for k in kwargs.keys():
+            if k in model_args:
+                del model_args[k]
+        return self.model_cls(
+            embeddings=embeddings,
+            tag_dictionary=label_dict,
+            tag_type=self.train_label_type,
+            **model_args,
+            **kwargs,
+        )
+
     @pytest.fixture
     def embeddings(self):
         yield WordEmbeddings("turian")
 
     @pytest.fixture
     def corpus(self, tasks_base_path):
-        yield flair.datasets.ColumnCorpus(data_folder=tasks_base_path / "fashion", column_format={0: "text", 2: "ner"})
+        yield flair.datasets.ColumnCorpus(data_folder=tasks_base_path / "fashion", column_format={0: "text", 3: "ner"})
 
     @pytest.mark.integration
-    def test_all_tag_proba_embedding(self, example_sentence):
-        model = self.model_cls.load(self.pretrained_model)
+    def test_all_tag_proba_embedding(self, example_sentence, loaded_pretrained_model):
 
-        model.predict(example_sentence, return_probabilities_for_all_classes=True)
+        loaded_pretrained_model.predict(example_sentence, return_probabilities_for_all_classes=True)
         for token in example_sentence:
-            assert len(token.get_tags_proba_dist(model.label_type)) == len(model.label_dictionary)
+            assert len(token.get_tags_proba_dist(loaded_pretrained_model.label_type)) == len(
+                loaded_pretrained_model.label_dictionary
+            )
             score_sum = 0.0
-            for label in token.get_tags_proba_dist(model.label_type):
+            for label in token.get_tags_proba_dist(loaded_pretrained_model.label_type):
                 assert label.data_point == token
                 score_sum += label.score
             assert abs(score_sum - 1.0) < 1.0e-5
 
     @pytest.mark.integration
-    def test_force_token_predictions(self, example_sentence):
-        model = self.model_cls.load(self.pretrained_model)
-        model.predict(example_sentence, force_token_predictions=True)
+    def test_force_token_predictions(self, example_sentence, loaded_pretrained_model):
+        loaded_pretrained_model.predict(example_sentence, force_token_predictions=True)
         assert example_sentence.get_token(3).text == "Berlin"
         assert example_sentence.get_token(3).tag == "S-LOC"
 
@@ -73,13 +86,15 @@ def test_train_load_use_tagger_flair_embeddings(self, results_base_path, corpus,
         del loaded_model
 
     @pytest.mark.integration
-    def test_train_load_use_tagger_disjunct_tags(self, results_base_path, tasks_base_path, embeddings, example_sentence):
+    def test_train_load_use_tagger_disjunct_tags(
+        self, results_base_path, tasks_base_path, embeddings, example_sentence
+    ):
         corpus = flair.datasets.ColumnCorpus(
             data_folder=tasks_base_path / "fashion_disjunct",
             column_format={0: "text", 3: "ner"},
         )
-        tag_dictionary = corpus.make_label_dictionary("ner", add_unk=False)
-        model = self.build_model(embeddings, tag_dictionary)
+        tag_dictionary = corpus.make_label_dictionary("ner", add_unk=True)
+        model = self.build_model(embeddings, tag_dictionary, allow_unk_predictions=True)
         trainer = ModelTrainer(model, corpus)
 
         trainer.train(results_base_path, shuffle=False, **self.training_args)
@@ -90,4 +105,4 @@ def test_train_load_use_tagger_disjunct_tags(self, results_base_path, tasks_base
         loaded_model.predict(example_sentence)
         loaded_model.predict([example_sentence, self.empty_sentence])
         loaded_model.predict([self.empty_sentence])
-        del loaded_model
+        del loaded_model
diff --git a/tests/models/test_tars_classifier.py b/tests/models/test_tars_classifier.py
@@ -0,0 +1,107 @@
+import pytest
+
+from flair.data import Sentence
+from flair.datasets import ClassificationCorpus
+from flair.embeddings import TransformerDocumentEmbeddings
+from flair.models import TARSClassifier
+from tests.model_test_utils import BaseModelTest
+
+
+class TestTarsClassifier(BaseModelTest):
+    model_cls = TARSClassifier
+    train_label_type = "class"
+    model_args = dict(task_name="2_CLASS")
+    training_args = dict(mini_batch_size=1, max_epochs=2)
+    pretrained_model = "tars-base"
+
+    @pytest.fixture
+    def corpus(self, tasks_base_path):
+        yield ClassificationCorpus(tasks_base_path / "imdb_underscore")
+
+    @pytest.fixture
+    def embeddings(self):
+        yield TransformerDocumentEmbeddings("distilbert-base-uncased")
+
+    @pytest.fixture
+    def example_sentence(self):
+        yield Sentence("This is great!")
+
+    def build_model(self, embeddings, label_dict, **kwargs):
+        model_args = dict(self.model_args)
+        for k in kwargs.keys():
+            if k in model_args:
+                del model_args[k]
+        return self.model_cls(
+            embeddings=embeddings,
+            label_type=self.train_label_type,
+            **model_args,
+            **kwargs,
+        )
+
+    def transform_corpus(self, model, corpus):
+        model.add_and_switch_to_new_task(
+            task_name="2_CLASS",
+            label_dictionary=corpus.make_label_dictionary(self.train_label_type),
+            label_type=self.train_label_type,
+        )
+        return corpus
+
+    @pytest.mark.integration
+    def test_predict_zero_shot(self, loaded_pretrained_model):
+        sentence = Sentence("I am so glad you liked it!")
+        loaded_pretrained_model.predict_zero_shot(sentence, ["happy", "sad"])
+        assert len(sentence.get_labels(loaded_pretrained_model.label_type)) == 1
+        assert sentence.get_labels(loaded_pretrained_model.label_type)[0].value == "happy"
+
+    @pytest.mark.integration
+    def test_predict_zero_shot_single_label_always_predicts(self, loaded_pretrained_model):
+        sentence = Sentence("I hate it")
+        loaded_pretrained_model.predict_zero_shot(sentence, ["happy", "sad"])
+        # Ensure this is an example that predicts no classes in multilabel
+        assert len(sentence.get_labels(loaded_pretrained_model.label_type)) == 0
+        loaded_pretrained_model.predict_zero_shot(sentence, ["happy", "sad"], multi_label=False)
+        assert len(sentence.get_labels(loaded_pretrained_model.label_type)) == 1
+        assert sentence.get_labels(loaded_pretrained_model.label_type)[0].value == "sad"
+
+    @pytest.mark.integration
+    def test_init_tars_and_switch(self, tasks_base_path, corpus):
+        tars = TARSClassifier(
+            task_name="2_CLASS",
+            label_dictionary=corpus.make_label_dictionary(label_type="class"),
+            label_type="class",
+        )
+
+        # check if right number of classes
+        assert len(tars.get_current_label_dictionary()) == 2
+
+        # switch to task with only one label
+        tars.add_and_switch_to_new_task("1_CLASS", "one class", "testlabel")
+
+        # check if right number of classes
+        assert len(tars.get_current_label_dictionary()) == 1
+
+        # switch to task with three labels provided as list
+        tars.add_and_switch_to_new_task("3_CLASS", ["list 1", "list 2", "list 3"], "testlabel")
+
+        # check if right number of classes
+        assert len(tars.get_current_label_dictionary()) == 3
+
+        # switch to task with four labels provided as set
+        tars.add_and_switch_to_new_task("4_CLASS", {"set 1", "set 2", "set 3", "set 4"}, "testlabel")
+
+        # check if right number of classes
+        assert len(tars.get_current_label_dictionary()) == 4
+
+        # switch to task with two labels provided as Dictionary
+        tars.add_and_switch_to_new_task("2_CLASS_AGAIN", corpus.make_label_dictionary(label_type="class"), "testlabel")
+
+        # check if right number of classes
+        assert len(tars.get_current_label_dictionary()) == 2
+
+    @pytest.mark.skip("embeddings are not supported in tars")
+    def test_load_use_model_keep_embedding(self):
+        pass
+
+    @pytest.mark.skip("tars needs additional setup after loading")
+    def test_load_use_model(self):
+        pass
diff --git a/tests/models/test_tars_ner.py b/tests/models/test_tars_ner.py
@@ -0,0 +1,100 @@
+import pytest
+
+import flair
+from flair.data import Sentence
+from flair.embeddings import TransformerWordEmbeddings
+from flair.models import TARSTagger
+from tests.model_test_utils import BaseModelTest
+
+
+class TestTarsTagger(BaseModelTest):
+    model_cls = TARSTagger
+    train_label_type = "ner"
+    model_args = dict(task_name="2_NER")
+    training_args = dict(mini_batch_size=1, max_epochs=2)
+    pretrained_model = "tars-ner"
+
+    @pytest.fixture
+    def corpus(self, tasks_base_path):
+        yield flair.datasets.ColumnCorpus(data_folder=tasks_base_path / "fashion", column_format={0: "text", 3: "ner"})
+
+    @pytest.fixture
+    def embeddings(self):
+        yield TransformerWordEmbeddings("distilbert-base-uncased")
+
+    @pytest.fixture
+    def example_sentence(self):
+        yield Sentence("George Washington was born in Washington")
+
+    def build_model(self, embeddings, label_dict, **kwargs):
+        model_args = dict(self.model_args)
+        for k in kwargs.keys():
+            if k in model_args:
+                del model_args[k]
+        return self.model_cls(
+            embeddings=embeddings,
+            label_type=self.train_label_type,
+            **model_args,
+            **kwargs,
+        )
+
+    def transform_corpus(self, model, corpus):
+        model.add_and_switch_to_new_task(
+            task_name="2_NER",
+            label_dictionary=corpus.make_label_dictionary(self.train_label_type),
+            label_type=self.train_label_type,
+        )
+        return corpus
+
+    @pytest.mark.integration
+    def test_predict_zero_shot(self, loaded_pretrained_model):
+        sentence = Sentence("George Washington was born in Washington")
+        loaded_pretrained_model.predict_zero_shot(sentence, ["location", "person"])
+        assert len(sentence.get_labels("location-person")) == 2
+        assert sorted([label.value for label in sentence.get_labels("location-person")]) == [
+            "location",
+            "person",
+        ]
+
+    @pytest.mark.integration
+    def test_init_tars_and_switch(self, tasks_base_path, corpus):
+        tars = TARSTagger(
+            task_name="2_NER",
+            label_dictionary=corpus.make_label_dictionary(label_type="ner"),
+            label_type="ner",
+        )
+
+        # check if right number of classes
+        assert len(tars.get_current_label_dictionary()) == 10
+
+        # switch to task with only one label
+        tars.add_and_switch_to_new_task("1_CLASS", "one class", "testlabel")
+
+        # check if right number of classes
+        assert len(tars.get_current_label_dictionary()) == 1
+
+        # switch to task with three labels provided as list
+        tars.add_and_switch_to_new_task("3_CLASS", ["list 1", "list 2", "list 3"], "testlabel")
+
+        # check if right number of classes
+        assert len(tars.get_current_label_dictionary()) == 3
+
+        # switch to task with four labels provided as set
+        tars.add_and_switch_to_new_task("4_CLASS", {"set 1", "set 2", "set 3", "set 4"}, "testlabel")
+
+        # check if right number of classes
+        assert len(tars.get_current_label_dictionary()) == 4
+
+        # switch to task with two labels provided as Dictionary
+        tars.add_and_switch_to_new_task("2_CLASS_AGAIN", corpus.make_label_dictionary(label_type="ner"), "testlabel")
+
+        # check if right number of classes
+        assert len(tars.get_current_label_dictionary()) == 10
+
+    @pytest.mark.skip("embeddings are not supported in tars")
+    def test_load_use_model_keep_embedding(self):
+        pass
+
+    @pytest.mark.skip("tars needs additional setup after loading")
+    def test_load_use_model(self):
+        pass
diff --git a/tests/models/test_text_classifier.py b/tests/models/test_text_classifier.py
diff --git a/tests/test_trainer.py b/tests/test_trainer.py

Original file line number	Diff line number	Diff line change
`@@ -298,6 +298,7 @@ def predict_zero_shot(`
`298`	`298`	`label_dictionary=label_dictionary,`
`299`	`299`	`label_type="-".join(label_dictionary.get_items()),`
`300`	`300`	`multi_label=multi_label,`
	`301`	`+ force_switch=True, # overwrite any older configuration`
`301`	`302`	`)`
`302`	`303`
`303`	`304`	`try:`