서브 세트 데이터 프레임의 드롭 팩터 레벨

Programming

서브 세트 데이터 프레임의 드롭 팩터 레벨

procodes 2020. 2. 12. 23:45

서브 세트 데이터 프레임의 드롭 팩터 레벨

을 포함하는 데이터 프레임이 있습니다 factor. subset또는 다른 인덱싱 기능을 사용하여이 데이터 프레임의 하위 집합을 만들면 새 데이터 프레임이 만들어집니다. 그러나 factor변수는 새 데이터 프레임에없는 경우에도 원래 수준을 모두 유지합니다.

패싯 플로팅을 수행하거나 요인 수준에 의존하는 함수를 사용할 때 문제가 발생합니다.

새 데이터 프레임에서 요인에서 수준을 제거하는 가장 간결한 방법은 무엇입니까?

예를 들면 다음과 같습니다.

df <- data.frame(letters=letters[1:5],
                    numbers=seq(1:5))

levels(df$letters)
## [1] "a" "b" "c" "d" "e"

subdf <- subset(df, numbers <= 3)
##   letters numbers
## 1       a       1
## 2       b       2
## 3       c       3    

# all levels are still there!
levels(subdf$letters)
## [1] "a" "b" "c" "d" "e"

서브셋 후에 factor ()를 변수에 다시 적용하기 만하면됩니다.

> subdf$letters
[1] a b c
Levels: a b c d e
subdf$letters <- factor(subdf$letters)
> subdf$letters
[1] a b c
Levels: a b c

편집하다

요인 페이지 예에서 :

factor(ff)      # drops the levels that do not occur

데이터 프레임의 모든 요인 열에서 수준을 삭제하려면 다음을 사용할 수 있습니다.

subdf <- subset(df, numbers <= 3)
subdf[] <- lapply(subdf, function(x) if(is.factor(x)) factor(x) else x)

R 버전 2.12부터는 droplevels()기능이 있습니다.

levels(droplevels(subdf$letters))

이 동작을 원하지 않으면 요인을 사용하지 말고 대신 문자형 벡터를 사용하십시오. 나는 이것이 나중에 물건을 패치하는 것보다 더 의미가 있다고 생각합니다. read.table또는로 데이터를로드하기 전에 다음을 시도하십시오 read.csv.

options(stringsAsFactors = FALSE)

단점은 알파벳 순서로 제한되어 있다는 것입니다. (재 순서는 줄거리의 친구입니다)

이는 알려진 문제이며, 하나의 가능한 해결책에 의해 제공됩니다 drop.levels()에 GDATA 귀하의 예제가 될 경우 패키지

> drop.levels(subdf)
  letters numbers
1       a       1
2       b       2
3       c       3
> levels(drop.levels(subdf)$letters)
[1] "a" "b" "c"

Hmisc 패키지 에도 dropUnusedLevels기능 이 있습니다 . 그러나 하위 집합 연산자를 변경해야만 작동하며 여기에는 해당되지 않습니다.[

결과적으로 열별로 직접 접근하는 것은 간단합니다 as.factor(as.character(data)).

> levels(subdf$letters)
[1] "a" "b" "c" "d" "e"
> subdf$letters <- as.factor(as.character(subdf$letters))
> levels(subdf$letters)
[1] "a" "b" "c"

똑같이하지만 다른 방법으로 dplyr

library(dplyr)
subdf <- df %>% filter(numbers <= 3) %>% droplevels()
str(subdf)

편집하다:

또한 작동합니다! agenis 덕분에

subdf <- df %>% filter(numbers <= 3) %>% droplevels
levels(subdf$letters)

완벽을 위해, 이제이 fct_drop에 forcats패키지 http://forcats.tidyverse.org/reference/fct_drop.html .

처리 droplevels방식 과 다릅니다 NA.

f <- factor(c("a", "b", NA), exclude = NULL)

droplevels(f)
# [1] a    b    <NA>
# Levels: a b <NA>

forcats::fct_drop(f)
# [1] a    b    <NA>
# Levels: a b

다음은 factor(..)접근 방식 과 동등한 다른 방법입니다 .

> df <- data.frame(let=letters[1:5], num=1:5)
> subdf <- df[df$num <= 3, ]

> subdf$let <- subdf$let[ , drop=TRUE]

> levels(subdf$let)
[1] "a" "b" "c"

R 소스 의 droplevels메소드 코드를 살펴보면 factor함수가 랩핑되는 것을 볼 수 있습니다 . 즉, 기본적으로 factor함수를 사용하여 열을 다시 만들 수 있습니다 .
data.table 아래에서 모든 요인 열에서 수준을 삭제합니다.

library(data.table)
dt = data.table(letters=factor(letters[1:5]), numbers=seq(1:5))
levels(dt$letters)
#[1] "a" "b" "c" "d" "e"
subdt = dt[numbers <= 3]
levels(subdt$letters)
#[1] "a" "b" "c" "d" "e"

upd.cols = sapply(subdt, is.factor)
subdt[, names(subdt)[upd.cols] := lapply(.SD, factor), .SDcols = upd.cols]
levels(subdt$letters)
#[1] "a" "b" "c"

이것은 독특합니다. 다른 패키지를로드하지 않으려면 다음과 같이하십시오.

levels(subdf$letters)<-c("a","b","c",NA,NA)

당신을 얻는다 :

> subdf$letters
[1] a b c
Levels: a b c

새로운 레벨은 이전 레벨 (subdf $ letters)에서 인덱스를 차지하는 모든 것을 대체하므로 다음과 같습니다.

levels(subdf$letters)<-c(NA,"a","c",NA,"b")

작동하지 않습니다.

레벨이 많을 때 이상적이지는 않지만 몇 가지 경우 빠르고 쉽습니다.

이를 위해 유틸리티 함수를 작성했습니다. 이제 gdata의 drop.levels에 대해 알고 있으므로 꽤 비슷합니다. 여기에 ( 여기에서 ) :

present_levels <- function(x) intersect(levels(x), x)

trim_levels <- function(...) UseMethod("trim_levels")

trim_levels.factor <- function(x)  factor(x, levels=present_levels(x))

trim_levels.data.frame <- function(x) {
  for (n in names(x))
    if (is.factor(x[,n]))
      x[,n] = trim_levels(x[,n])
  x
}

여기에 그 방법이 있습니다

varFactor <- factor(letters[1:15])
varFactor <- varFactor[1:5]
varFactor <- varFactor[drop=T]

매우 흥미로운 스레드, 특히 하위 선택을 다시 고려하는 아이디어가 마음에 들었습니다. 나는 전에 비슷한 문제가 있었고 방금 문자로 변환 한 다음 다시 요인으로 전환했습니다.

   df <- data.frame(letters=letters[1:5],numbers=seq(1:5))
   levels(df$letters)
   ## [1] "a" "b" "c" "d" "e"
   subdf <- df[df$numbers <= 3]
   subdf$letters<-factor(as.character(subdf$letters))

불행히도 RevoScaleR의 rxDataStep을 사용할 때 factor ()가 작동하지 않는 것 같습니다. 두 단계로 수행합니다. 1) 문자로 변환하고 임시 외부 데이터 프레임 (.xdf)에 저장합니다. 2) 요인으로 다시 변환하고 결정적인 외부 데이터 프레임에 저장합니다. 이렇게하면 모든 데이터를 메모리에로드하지 않고도 사용하지 않은 요인 수준을 제거 할 수 있습니다.

# Step 1) Converts to character, in temporary xdf file:
rxDataStep(inData = "input.xdf", outFile = "temp.xdf", transforms = list(VAR_X = as.character(VAR_X)), overwrite = T)
# Step 2) Converts back to factor:
rxDataStep(inData = "temp.xdf", outFile = "output.xdf", transforms = list(VAR_X = as.factor(VAR_X)), overwrite = T)

전부는 아니지만 내 경우에는 아무것도 작동하지 않는 것 같습니다. 꽤 오랫동안 고생 한 후 요인 열에서 as.character () 를 사용하여 문자열이있는 열로 변경 하려고 시도했지만 제대로 작동하는 것 같습니다.

성능 문제가 확실하지 않습니다.

참고 URL : https://stackoverflow.com/questions/1195826/drop-factor-levels-in-a-subsetted-data-frame

'Programming' 카테고리의 다른 글

클래스 정의를위한 * .h 또는 * .hpp (0)	2020.02.12
Docker는 저장소 이름을 변경하거나 이미지 이름을 바꾸는 방법은 무엇입니까? (0)	2020.02.12
유닉스의 텍스트 파일에서 미리 정해진 범위의 줄을 어떻게 추출 할 수 있습니까? (0)	2020.02.12
JavaScript를 사용하여 문자열을 제목으로 변환 (0)	2020.02.12
# 1071-지정된 키가 너무 깁니다. (0)	2020.02.12

현재글서브 세트 데이터 프레임의 드롭 팩터 레벨

procodes

서브 세트 데이터 프레임의 드롭 팩터 레벨

서브 세트 데이터 프레임의 드롭 팩터 레벨

'Programming' 카테고리의 다른 글

'Programming'의 다른글

티스토리툴바

서브 세트 데이터 프레임의 드롭 팩터 레벨

서브 세트 데이터 프레임의 드롭 팩터 레벨

'Programming' 카테고리의 다른 글

'Programming'의 다른글

관련글

티스토리툴바