모듈 시작

전처리 할 때 문장들 들어오면 newline character단위로 문장 구분 (다.) 단위로 문장 구분

1. 초기화

self.save_hyperparameters ⇒ parameter 다 저장

self.clsfier = automodel~.from_pretrained() ⇒

model.tokenizer(x, return_tensors='pt')
=> model 에서 tokenizer 를 실행해서 pytorch tensor 로 리턴을 해주는 함수이다.
x=> 문장 

2. 데이터 전처리

처음으로 데이터를 받아들이고 해당 데이터를 가공하는 과정이다.

dataloader 함수

def dataloader(self, path, shuffle=False):
        df = self.read_data(path)
        df = self.preprocess_dataframe(df)

        dataset = TensorDataset(
            torch.tensor(df['문장'].to_list(), dtype=torch.long),
            torch.tensor(df['악플'].to_list(), dtype=torch.long),
        )
        return DataLoader(
            dataset,
            batch_size=self.hparams.batch_size * 1 if not self.hparams.tpu_cores else self.hparams.tpu_cores,
            shuffle=shuffle,
            num_workers=self.hparams.cpu_workers,
        )

dataLoader 함수에서 들어온 데이터를 전처리 시작