모듈 시작
전처리 할 때 문장들 들어오면 newline character단위로 문장 구분 (다.) 단위로 문장 구분
self.save_hyperparameters ⇒ parameter 다 저장
self.clsfier = automodel~.from_pretrained() ⇒
model.tokenizer(x, return_tensors='pt')
=> model 에서 tokenizer 를 실행해서 pytorch tensor 로 리턴을 해주는 함수이다.
x=> 문장
처음으로 데이터를 받아들이고 해당 데이터를 가공하는 과정이다.
def dataloader(self, path, shuffle=False):
df = self.read_data(path)
df = self.preprocess_dataframe(df)
dataset = TensorDataset(
torch.tensor(df['문장'].to_list(), dtype=torch.long),
torch.tensor(df['악플'].to_list(), dtype=torch.long),
)
return DataLoader(
dataset,
batch_size=self.hparams.batch_size * 1 if not self.hparams.tpu_cores else self.hparams.tpu_cores,
shuffle=shuffle,
num_workers=self.hparams.cpu_workers,
)
dataLoader 함수에서 들어온 데이터를 전처리 시작